用語集

教師なし学習

教師なし学習が、クラスタリング、次元削減、異常検知を使用して、どのようにデータの隠れたパターンを発見するかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

教師なし学習は機械学習(ML)のカテゴリーであり、あらかじめ定義されたラベルやカテゴリーを持たないデータに対してアルゴリズムを学習する。教師あり学習とは異なり、入力特徴に基づいて既知の出力を予測することが目的ではない。その代わりに、システムはデータ内の基本的な構造、パターン、関係を自ら学習しようとする。これは、コンピュータに分類されていないアイテムの大規模なコレクションを与え、何を探すべきか指示せずに、自然なグループ分けや興味深い特徴を見つけるように求めるようなものだ。このアプローチは、複雑なデータセットを探索し、事前には明らかでないかもしれない洞察を発見するために極めて重要であり、現代の人工知能(AI)の重要な部分を形成している。

教師なし学習の仕組み

教師なし学習では、アルゴリズムは入力データ点を調べ、それらの間の類似性、相違性、相関性を識別しようとする。訓練段階では、「正解」や目標出力は提供されない。アルゴリズムはデータに内在する構造を推測しなければならない。これには多くの場合、データポイントをグループに整理したり(クラスタリング)、データの複雑さを軽減したり(次元削減)、異常なデータポイントを特定したり(異常検出)することが含まれる。教師なし手法の成功は、多くの場合、アルゴリズムが外部からのガイダンスなしにデータセットの本質的な特性をどれだけ捉えられるかにかかっている。

主なテクニックとコンセプト

教師なし学習にはいくつかのテクニックがある:

  • クラスタリングこれは、特定の特徴に基づいて類似したデータ点をグループ化することを含む。目標は、クラスタ内のアイテムが非常に類似しており、異なるクラスタ内のアイテムが非類似であるクラスタを作成することです。一般的なアルゴリズムにはK-Means Clusteringや DBSCANがある。これは、顧客セグメンテーションや大規模な文書コレクションの整理のようなタスクに有用である。
  • 次元削減これらのテクニックは、データセットの入力変数(特徴)の数を減らし、重要な情報を保持することを目的としている。これによりモデルが単純化され、計算コストが削減され、データの可視化に役立ちます。一般的な手法には、主成分分析(PCA)やt-Distributed Stochastic Neighbor Embedding(t-SNE)などがある。
  • アソシエーション・ルール学習:大規模データセットの変数間の興味深い関係や関連ルールを発見する。典型的な例は、マーケット・バスケット分析で、よく一緒に購入される商品を特定する。Aprioriのようなアルゴリズムが一般的に使用されます。アソシエーション・ルール・マイニングの詳細はこちら
  • 異常検出この手法は、データの大半から大きく逸脱したデータポイントを特定することに重点を置く。不正検知、ネットワーク・セキュリティ、製造における欠陥の特定などに広く使用されている。
  • 生成モデル教師なしモデルの中には、Generative Adversarial Networks(GAN)やAutoencoderのように、基礎となるデータ分布を学習して、元のデータに似た新しいデータサンプルを生成できるものがある。

実世界での応用

教師なし学習は、様々な分野にわたって様々な応用力を持つ:

  • 顧客セグメンテーション:企業はクラスタリングを使用して、類似した行動や属性を持つ顧客をグループ化し、ターゲットを絞ったマーケティング・キャンペーンやパーソナライズされた体験を可能にします。顧客セグメンテーションにおけるAIについて読む
  • レコメンデーションシステム教師なし学習は、NetflixやAmazonのようなプラットフォームでよく見られるように、関連するアイテムやコンテンツを提案するために、ユーザーの行動(例えば、閲覧または購入した製品)のパターンを識別するのに役立つ。
  • バイオインフォマティクスクラスタリングアルゴリズムは、類似した発現パターンを持つ遺伝子をグループ化し、研究者が遺伝的機能や疾患を理解するのに役立ちます。遺伝子発現解析におけるクラスタリングを探る
  • データの前処理:教師ありモデルにデータを投入する前に、特徴抽出やノイズ除去のためにPCAなどのテクニックを使用し、パフォーマンスを向上させる可能性がある。Scikit-learnの教師なし学習ツールを参照

他の学習パラダイムとの比較

教師なし学習は、他のMLアプローチとは大きく異なる:

  • 教師あり学習 分類や 回帰のようなタスクのモデルを学習するために、ラベル付けされたデータ(入力と出力のペア)に依存する。目標は、入力を既知の出力に対応付けることである。教師あり学習と教師なし学習を比較する
  • 強化学習エージェントは、累積報酬を最大化するために、環境内で行動を実行することによって意思決定を行うことを学習する。フィードバック信号(報酬やペナルティ)に導かれながら、試行錯誤を通じて学習する。強化学習の概要を参照
  • 半教師あり学習教師あり学習と教師なし学習のギャップを埋めるために、少量のラベル付きデータと大量のラベルなしデータの組み合わせを使用する。
  • 教師なし学習教師なし学習のサブセットで、入力データ自体からラベルが自動的に生成される。NLPや コンピュータ・ビジョン(CV)のような大規模モデルの事前学習によく使われる。

教師なし学習は、データを探索し、隠れた構造を発見し、貴重な特徴を抽出するための強力なツールであり、多くの場合、複雑なデータ分析パイプラインの重要な最初のステップとして、または他のML技術を補完する役割を果たします。Ultralytics HUBのようなプラットフォームは、データ準備や分析のための教師なし技術を組み込む可能性のある様々なMLモデルを開発・管理できる環境を提供します。以下のようなフレームワーク PyTorchTensorFlowなどのフレームワークは、教師なしアルゴリズムの実装をサポートする広範なライブラリを提供する。

すべて読む