用語集

半教師付き学習

半教師あり学習がラベル付けされたデータとラベル付けされていないデータをどのように組み合わせ、AIモデルを強化し、ラベル付けコストを削減し、精度を高めるかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

半教師あり学習(SSL)は、教師あり学習と 教師なし学習の中間に位置する機械学習(ML)手法の一種である。ラベル付けされた少量のデータとラベル付けされていない大量のデータを組み合わせてモデルを学習する。SSLの背景にある主な動機は、特に複雑なドメインにおいて、データのラベリングにしばしば伴う高いコストと労力である。容易に入手可能なラベルなしデータを活用することで、SSLは限られたラベル付きデータだけで達成できる以上のモデル性能と汎化を向上させることを目的としている。

半教師付き学習の仕組み

半教師付き学習の核となる原理は、ラベル付けされていないデータは、明示的なラベルがないにもかかわらず、データの根本的な構造と分布に関する貴重な情報を含んでいるということである。SSLアルゴリズムは、学習プロセスを強化するためにこの構造を利用しようとする。一般的なアプローチでは、「クラスタ仮定」(同じクラスタ内の点は同じラベルを持つ可能性が高い)や「多様体仮定」(データ点は低次元の多様体上にある)など、データに関する仮定を行うことが多い。

SSLで使われるテクニックには、擬似ラベリングのような方法があり、最初のラベル付きデータで学習されたモデルが、ラベルなしデータのラベルを予測するのに使われる。信頼度の高い予測は「擬似ラベル」として扱われ、学習セットに追加される。別のアプローチとして、整合性正則化があり、これは、同じラベルなし入力の摂動バージョンに対してモデルが同様の出力を生成するように促すもので、多くの場合、データ増大のような手法によって達成される。これらの方法は、膨大なラベルなしデータセットを利用することで、モデルがよりロバストな特徴を学習するのを助ける。Towards Data ScienceにSSLの概要が掲載されている。

応用と実例

半教師付き学習は、ラベル付きデータの取得がボトルネックとなるシナリオで特に有用である。主な応用分野には以下のようなものがある:

  • 画像の分類画像を分類するモデルの学習(例えば、CIFAR-10のようなデータセットを使用)。手動でラベル付けされた画像はごく一部であるが、ラベル付けされていない画像はウェブから何百万枚も入手できる。
  • 医療画像解析少数の専門家が注釈を付けた医用画像と、注釈の付いていないより多くの医用画像を用いてトレーニングすることにより、診断モデルを改善する。これにより、腫瘍検出などのタスクを強化することができる。
  • ウェブページの分類:手作業で分類した少数のページと、インターネットからかき集めた膨大な数の未分類ページを使ってウェブページを分類する。ウェブコンテンツ分類に関する初期の研究例を参照。
  • 音声認識限られた量の書き起こされた音声データと、書き起こされていない大量の音声を組み合わせてシステムを構築する。
  • 自然言語処理(NLP)ラベル付けされていない大規模なテキストコーパスを、ラベル付けされた小規模なデータセットとともに活用することで、感情分析やテキスト分類などのタスクを強化する。

関連概念との区別

半教師あり学習は、関連するMLパラダイムと区別することが重要である:

  • 教師あり学習完全にラベル付けされたデータに依存して学習を行う。SSLはラベル付きデータとラベルなしデータの両方を使用する。
  • 教師なし学習通常、クラスタリングや次元削減のようなタスクで、事前に定義されたラベルを予測することなく、ラベルのないデータのみを使用する。SSLは教師ありタスクを改善するためにラベルなしデータを使用する。
  • 自己教師あり学習ラベルなしデータも使用するが、データ自体から教師信号を生成する(例:マスクされた単語の予測、画像の色付け)。ラベル付きデータで微調整されるモデルの事前学習によく使用されるのに対し、SSLでは通常、メインの学習段階で両方のデータが組み込まれる。

半教師あり学習の利点

  • ラベリングコストの削減:高価で時間のかかる手動データアノテーションの必要性を大幅に低減。
  • 精度の向上:ラベル付けされていないデータからの情報を活用することで、ラベル付けされた小さなデータセットのみでトレーニングする場合と比較して、モデルの精度を向上させることができる。
  • 汎化の強化:SSLで訓練されたモデルは、基礎となるデータ構造を学習することで、新しい未知のデータに対してより良く汎化することが多い。
  • 豊富なデータを活用:実世界の多くのアプリケーションで利用可能な膨大な量のラベルなしデータを有効活用。

半教師あり学習は、効果的な人工知能(AI)システムを構築するための実用的で強力なアプローチを提供し、特にラベル付けされていない画像や動画が大量に存在する物体検出のようなコンピュータビジョンタスクにおいて有効です。Ultralytics HUBのようなプラットフォームは、以下のようなモデルをトレーニングするために、ラベル付けされたデータとラベル付けされていないデータが混在するデータセットの管理を容易にします。 Ultralytics YOLO.SSLに関するGoogle AI Blogの記事のようなリソースで強調されているように、SSLテクニックを探求することは、ラベル付きデータの利用可能性の制限に直面しているプロジェクトにとって非常に重要です。

すべて読む