t分散確率的近傍埋め込み(t-SNE)
高次元データを可視化するための強力なテクニック、t-SNEをご覧ください。その用途、利点、AIやMLへの応用について学びます。
t-distributed Stochastic Neighbor Embedding (t-SNE)は、主にデータの可視化に用いられる強力な非線形次元削減手法である。機械学習(ML)の研究者や実務家は、高次元のデータセットを低次元空間(一般的には2Dまたは3Dプロット)で可視化することができる。Laurens van der MaatenとGeoffrey Hintonによって開発されたこの手法は、他の手法では見逃してしまうような、クラスターや多様体のようなデータの根底にある局所的な構造を明らかにすることができる。Scikit-learnのようなライブラリやPyTorchのようなフレームワークで広く実装されている。
t-SNEの核となる考え方は、低次元のマップにおいて、類似したデータ点を近くに、非類似のデータ点を遠くに配置することである。これは、データ点間の高次元のユークリッド距離を、類似性を表す条件付き確率に変換することで達成される。そして、低次元マップの類似確率分布を使用し、これら2つの分布間の発散を最小化する。
AiとMlにおける応用
t-SNEは、人工知能(AI)の様々な領域における視覚的探索に広く使用されている。
T-SNEと他の手法の比較他の手法
t-SNEを他の次元削減法と区別することは重要である。
- 主成分分析(PCA):PCAは、データの最大分散を保存することに重点を置いた線形手法であり、これは大規模でグローバルな構造を保存することに相当する。対照的に、t-SNEは局所構造(すなわち、個々のデータ点がどのようにグループ化されているか)を明らかにすることに優れた非線形手法である。PCAはより高速で決定論的ですが、その線形的な性質は、t-SNEが可能にする複雑な関係を捉えることができないかもしれません。計算負荷とノイズを減らすために、t-SNEを適用する前に、まずPCAを使用してデータセットを中間次元数(例えば30~50次元)に削減するのが一般的です。
- オートエンコーダオートエンコーダは、強力で非線形なデータ表現を学習できるニューラルネットワークの一種である。PCAやt-SNEよりも柔軟性が高いが、多くの場合、解釈しにくく、学習には計算コストがかかる。オートエンコーダーは主に、直接視覚化するよりも特徴抽出に使用される。
考察と限界
強力ではあるが、t-SNEにはユーザーが考慮しなければならないいくつかの制限がある。
- 計算コスト:このアルゴリズムは、データ点数の2次関数的な時間と空間の複雑さを持つため、数十万サンプルのデータセットでは低速になる。Barnes-Hut t-SNEのような技法は大幅な性能向上をもたらす。
- ハイパーパラメータの感度:結果はハイパーパラメータ、特に各点が持つ近傍点の数を推測する「perplexity」によって大きく影響を受ける可能性がある。普遍的に最適なパープレキシティ値は1つではありません。これらの影響を理解するための優れたリソースは、Distillの記事"How to Use t-SNE Effectively"です。
- グローバル構造の解釈:t-SNEの可視化は注意して解釈されるべきである。最終的なプロットにおけるクラスターの相対的なサイズとクラスター間の距離は、必ずしも元の高次元空間における実際の分離を反映しているわけではない。このアルゴリズムの焦点は、大域的なジオメトリではなく、局所的な近傍領域を保存することにある。TensorFlow Projectorのようなツールは、インタラクティブな探索を可能にし、直感を構築するのに役立つ。このような分析の管理と可視化は、Ultralytics HUBのようなプラットフォームを使って効率化することができる。