用語集

次元削減

次元削減技術で高次元データを簡素化。MLモデルのパフォーマンス、可視化、効率を今すぐ改善します!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

次元削減は、機械学習(ML)やデータ分析において重要なプロセスであり、データセットの特徴(次元)の数を減らしつつ、意味のある情報を可能な限り保持するために用いられる。多数の特徴を含む高次元データは、「次元の呪い」として知られる課題につながる可能性があります。このようなモデルは、訓練に計算コストがかかり、より多くのメモリを必要とし、オーバーフィッティングを起こしやすく、疎なデータ分布のためにうまく一般化できないことがあります。次元削減技術は、データを低次元空間に変換し、モデルを単純化し、学習速度を向上させ、モデルの性能を高め、データの可視化を容易にすることで、これらの問題を軽減することを目的としています。

次元削減の仕組み

次元削減技術は、一般的に2つの主要なカテゴリーに分類される:

  1. 特徴選択:これらの方法は、元の特徴のサブセットを選択し、無関係または冗長とみなされる特徴を破棄する。目標は、最も有益な特徴を変更せずに残すことである。手法は、フィルター(統計的特性に基づく)、ラッパー(モデル性能に基づく)、組み込み(モデル学習プロセスに統合)に分類できる。
  2. 特徴抽出:これらの手法は、元の高次元データを新しい低次元の特徴空間に変換する。単に特徴を選択するのではなく、重要な情報を捉える新しい特徴(多くの場合、元の特徴の組み合わせ)を作成する。これは、特徴抽出の用語集で詳しく説明されている中核概念です。

主要テクニック

次元削減には、いくつかのアルゴリズムが一般的に使用されている:

  • 主成分分析(PCA):特徴抽出に広く使われている線形手法。PCAは、主成分(元のデータの最大分散を捕らえる、新しい、無相関の特徴)を特定する。データをこれらの成分に投影することで、データの変動性をほとんど保持したまま、効果的に次元を削減する。Scikit-learnのようなライブラリを用いて実装されることが多い。
  • t-分散確率的近傍埋め込み(t-SNE)t-SNEは、データの局所的な構造を保持することに重点を置き、高次元のデータポイントを低次元のポイントにマッピングすることで、類似したポイント同士を近づける。視覚化には優れているが、計算量が多く、PCAに比べてモデル学習前の一般的な次元削減には適していない。Laurens van der Maatenのサイトでは、t-SNEに関するリソースを提供しています。
  • オートエンコーダ:教師なし学習や特徴抽出に使われるニューラルネットワーク(NN)の一種。オートエンコーダは、入力データを低次元の潜在表現(ボトルネック層)に圧縮するエンコーダと、この表現から元のデータを再構成するデコーダで構成される。圧縮された潜在表現は、低次元の出力として機能する。これらは PyTorchまたは TensorFlow.

次元削減と関連概念

  • 特徴抽出:前述の通り、特徴抽出は古い特徴から新しい特徴を作り出す次元削減の一種である。PCAやオートエンコーダのような技法がこのカテゴリーに属する。
  • フィーチャーエンジニアリングこれは、モデルのパフォーマンスを向上させるために、特徴量を作成、選択、変換する広範なプロセスである。次元削減(選択と抽出の両方)は特徴工学の一部と考えられている。効果的なフィーチャーエンジニアリングには、ドメインの専門知識が必要とされることが多い。
  • データ圧縮:どちらもデータサイズの削減を目的としているが、次元削減は特にMLタスクに関連する情報を保存することに重点を置いており、再構築の詳細を破棄する可能性がある。標準的なデータ圧縮(ZIPファイルのような)は、ストレージサイズを無損失または再構築のために許容できる損失で最小化することを目的としており、必ずしもMLモデル入力のために最適化されているわけではありません。

AIとMLの応用

次元削減は、多くの人工知能(AI)やMLアプリケーションで不可欠である:

  • コンピュータビジョン(CV)画像には膨大な量のピクセルデータが含まれている。PCAやCNN(Convolutional Neural Networks:畳み込みニューラルネットワーク)に固有の特徴抽出(以下のようなモデルで使用されている)のような技術。 Ultralytics YOLOのようなモデル)に内在する特徴抽出のような技法は、この次元性を減らし、物体検出や 画像分類のようなタスクに関連するパターンに焦点を当てます。これにより、処理をスピードアップし、モデルの精度を向上させることができる。データガイドの前処理には、特徴処理に関連するステップが含まれることが多い。
  • バイオインフォマティクスゲノムデータの解析には、何千もの遺伝子発現(特徴)を持つデータセットが含まれることが多い。次元削減は、研究者が疾患や生物学的機能に関連する重要なパターンを特定し、複雑な生物学的データをより管理しやすくするのに役立つ。Nature Methodsのようなジャーナルに掲載された研究は、しばしばこの技術を利用している。
  • 自然言語処理(NLP)テキストデータは、TF 単語埋め込みなどの技術を用いて高次元空間で表現することができる。次元削減は、文書分類、トピックモデリング、センチメント分析などのタスクのために、これらの表現を単純化するのに役立ちます。
  • データの可視化:t-SNEのような技術は、高次元のデータセット(例えば、顧客セグメント、遺伝子クラスター)を2Dまたは3Dでプロットし、人間がデータ内の潜在的な構造や関係を視覚的に検査し、理解することを可能にする貴重なものである。Ultralytics HUBのようなプラットフォームは、このような分析が関連するデータセットやモデルの管理を容易にします。

メリットと課題

メリット

  • 計算コストとトレーニング時間を削減。
  • メモリとストレージの要件を最小限に抑えます。
  • 次元の呪いを軽減し、オーバーフィッティングを減らすことができる。
  • ノイズや冗長性を除去することで、モデルのパフォーマンスを向上させます。
  • 複雑な高次元データの可視化が可能。

課題だ:

  • 注意深く適用しないと、重要な情報が失われる可能性がある。
  • 適切な手法と目標とする次元数を選択するのは難しいことである。
  • 特徴抽出において)変換された特徴は、元の特徴に比べて解釈が難しい場合がある。
  • t-SNEのように、計算コストがかかる手法もある。

次元削減を理解し適用することは、現代のAI開発において大規模で複雑なデータセットを効果的に扱うために不可欠である。

すべて読む