用語集

t分散確率的近傍埋め込み(t-SNE)

高次元データを可視化するための強力なテクニック、t-SNEをご覧ください。その用途、利点、AIやMLへの応用について学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

t-distributed Stochastic Neighbor Embedding (t-SNE)は、次元削減によく使われる手法で、特に高次元のデータセットを低次元空間(通常は2次元または3次元)で可視化するのに適している。Laurens van der MaatenとGeoffrey Hintonによって開発されたこの手法は、クラスタや多様体のようなデータの根本的な構造を明らかにすることに優れており、複雑なデータを視覚的に理解しやすくする。機械学習(ML)やデータ分析の分野で広く使われている。

t-SNEを理解する

t-SNEの核となる考え方は、データの局所構造を保持することである。高次元のデータ点間の類似性を条件付き確率としてモデル化し、写像された点間の確率分布が類似する低次元の埋め込みを見つけようとする。主成分分析(PCA)のような線形手法とは異なり、t-SNEは非線形で確率的である。このため、特にデータが曲線多様体上にある場合、PCAでは見逃してしまうような複雑な関係を捉えることができる。しかし、PCAの方がデータの大域的な構造と分散を保持することに優れている。

このアルゴリズムは,高次元と低次元の両方の点間の対類似度を計算する.高次元空間ではガウス分布を使用し、低次元空間ではt分布(具体的には、自由度1のスチューデントのt分布)を使用する。t分布を使用することで、「混雑問題」(点がマップの中心に集まりやすい)を緩和し、低次元マップでは異種点をより効果的に分離することができる。このプロセスでは、勾配降下を使ってこれら2つの分布間のダイバージェンスを最小化する。詳細な技術的説明については、t-SNEの原著論文を参照されたい。

AIとMLの応用

t-SNEは主に可視化技術であり、AIモデルによって生成された高次元データを探索し理解するために非常に有用である。以下はその例である:

主な検討事項

強力な反面、t-SNEにはユーザーが理解すべき特徴がある:

  • 計算コスト:t-SNEは、特に非常に大規模なデータセットの場合、ペアごとの類似度を計算する必要があるため、計算量が多くなる可能性がある。
  • ハイパーパラメータの感度:結果はハイパーパラメータ、特に各点で考慮される局所近傍の数に影響する "perplexity "の影響を受けやすい。適切なハイパーパラメータのチューニングが必要な場合が多い。scikit-learnのような実装は、これらのパラメータのコントロールを提供する。
  • 解釈t-SNEプロットにおけるクラスターのサイズとクラスター間の距離は、必ずしも元の高次元空間における実際のクラスターのサイズや分離に直接対応するとは限らない。これは主に局所的な類似性とグループ化を明らかにします。これは、K-Meansのような決定的なクラスタリング分析ではなく、探索のためのツールです。

要約すると、t-SNEは、複雑で高次元のデータセットを視覚化し、直感を得るための人工知能(AI)ツールキットにおいて、他の分析手法を補完する貴重なツールである。

すべて読む