高次元データを可視化するための強力なテクニック、t-SNEをご覧ください。その用途、利点、AIやMLへの応用について学びます。
t-distributed Stochastic Neighbor Embedding (t-SNE)は、次元削減のための強力な手法であり、主に高次元のデータセットを低次元空間(通常は2次元または3次元)で可視化するために設計されている。Laurens van der Maatenと Geoffrey Hintonによって開発されたt-SNEは、クラスターや多様体といったデータの根底にある局所構造を明らかにすることに優れている。これにより、人工知能(AI)や機械学習(ML)モデルによって生成または処理された複雑なデータセットを、視覚的な検査によって解釈しやすくする。コンピュータ・ビジョン(CV)や自然言語処理(NLP)など、さまざまな分野で広く利用されている。
t-SNEの核となる考え方は、点間の類似性を保持する方法で、高次元データ点を低次元空間(例えば2次元プロット)にマッピングすることである。高次元の点のペア間の類似性を条件付き確率としてモデル化し、マップされた点間の条件付き確率が類似する低次元の埋め込みを見つけようとする。このプロセスは、局所的な構造を保持することに重点を置く。つまり、高次元空間で近接している点は、低次元マップでも近接したままであるべきなのである。
主成分分析(PCA)のような線形手法とは異なり、t-SNEは非線形で確率的である。これにより、PCAでは見逃されがちな、曲線多様体のような複雑で非線形な関係を捉えることができる。このアルゴリズムは、高次元空間ではガウス分布、低次元空間ではスチューデントのt分布(自由度1)を用いて類似度を計算する。t分布を使用することで、低次元マップにおいて非類似点をより遠くに分離することができ、点が集まりやすい「混雑問題」を緩和することができる。最適な埋め込みは、勾配降下のような最適化手法を用いて、2つの確率分布間の発散(具体的には、カルバック・ライブラー発散)を最小化することで求められる。技術的な詳細については、t-SNEの原著論文を参照されたい。
t-SNEもPCAも一般的な次元削減技術であるが、両者は大きく異なる:
t-SNEは、ディープラーニングモデルによって学習された埋め込みを探索するなど、AIやMLパイプラインでしばしば遭遇する複雑で高次元のデータを理解するための、非常に貴重な可視化ツールとして機能する。
視覚化には強力だが、t-SNEにはいくつかの注意点がある: