用語集

半教師付き学習

半教師あり学習がラベル付けされたデータとラベル付けされていないデータをどのように組み合わせ、AIモデルを強化し、ラベル付けコストを削減し、精度を高めるかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

半教師付き学習(SSL)は、機械学習(ML)における強力な中間領域を示すもので、学習時に少量のラベル付きデータと大量のラベルなしデータを組み合わせる。このアプローチは、ラベル付きデータの取得が高価で、時間がかかり、現実的でないにもかかわらず、ラベルなしデータが豊富にあるようなシナリオにおいて特に価値がある。SSLは、非ラベルデータ内の基本的な構造を活用することで、限られたラベル付きデータだけで達成できる以上のモデル性能を向上させることを目的としており、実世界の多くの人工知能(AI)問題にとって実用的な手法となっている。

半教師付き学習の仕組み

SSLアルゴリズムは、ラベル付けされたデータとラベル付けされていないデータとの関係について一定の仮定を置くことで機能する。一般的な仮定には、「平滑性の仮定」(互いに近い点はラベルを共有する可能性が高い)や「クラスタの仮定」(データは明確なクラスタを形成する傾向があり、同じクラスタ内の点はラベルを共有する可能性が高い)などがある。多くの手法では、ラベル付けされたデータで初期モデルを学習し、それを使って信頼度の高い予測に基づいてラベル付けされていないデータの擬似ラベルを生成する。その後、元のラベル付きデータと新たに擬似ラベルを付けたデータの両方でモデルを再トレーニングする。もう1つのアプローチは一貫性正則化であり、モデルが、入力がわずかに摂動されたとしても、ラベル付けされていない例に対して同じ出力を生成するように促す。これらの手法により、モデルは大量のラベルなしサンプルに内在するパターンと分布から学習することができる。より高度なテクニックは、SSLに関するGoogle AI Blogの記事のようなリソースで探求されている。

他の学習パラダイムとの比較

半教師付き学習は、他の主要な学習タイプの間にあるユニークな空間を占めている:

  • 教師あり学習ラベル付き学習データに全面的に依存する。SSLは、ラベル付けされたデータが乏しい場合にパフォーマンスを向上させる可能性のあるラベル付けされていないデータを組み込むことによって、異なる。
  • 教師なし学習 クラスタリングや 次元削減のように、パターンや構造を見つけるためにラベル付けされていないデータのみを使用する。SSLはラベル付けされていないデータを使用するが、分類や回帰のようなタスクを実行するために、ラベル付けされた少数の例セットで学習プロセスをガイドする。
  • 自己教師あり学習(SSL)教師なし学習の一種で、入力データ自体からラベルが自動的に生成される(例えば、画像のマスクされた部分を予測する)。SSLはラベルのないデータを使用するが、その監視を生成するメカニズムは、事前にラベル付けされたデータとラベルのないデータを明示的に組み合わせる典型的な半教師あり学習とは異なる。

実世界での応用

SSLは、ラベリングがボトルネックとなっているドメインで高い効果を発揮する:

  1. ウェブページの分類:少数のウェブサイト(「スポーツ」、「ニュース」、「テクノロジー」など)に手作業でラベルを付けることは可能だが、何十億ものラベルを付けることは非現実的だ。SSLでは、ラベル付けされていない膨大な数のWebサイトを利用して、テキストコンテンツとリンク構造から学習し、分類器の精度とロバスト性を向上させることができる(Webコンテンツマイニングの概要)。
  2. 音声認識音声の書き起こしには多大な労力を要する。SSLは、大量の書き起こされていない音声データとともに、少量の書き起こされた音声でシステムを訓練することを可能にし、多様なアクセントや話し方の認識を向上させます(音声処理研究)。
  3. 医療画像解析医療スキャン(腫瘍検出のためのMRIやCTスキャンなど)の専門家によるアノテーションはコストがかかり、専門的な知識が必要です。SSLは、限られたアノテーション画像セットでトレーニングされた診断モデルのパフォーマンスを向上させるために、多数のラベルなしスキャンを活用することができ、ヘルスケアにおけるより優れたAIソリューションにつながる可能性がある。
  4. コンピュータビジョン(CV)におけるオブジェクト検出何千枚もの画像からオブジェクトの正確なバウンディングボックスを作成するのは手間がかかる(データ収集とアノテーションガイド)。SSL技術は、以下のようなモデルの検出性能を向上させるために、少ないラベル付きデータセットと一緒に、豊富なラベルなし画像やビデオフレームを利用することができます。 Ultralytics YOLO.

利点と課題

SSLの主な利点は、大規模なラベル付きデータセットへの依存を減らし、データラベリングに関連する時間とリソースを節約できることである。ラベル付けされていないサンプルからの情報を利用することで、限られたデータで訓練された純粋な教師ありモデルと比較して、より優れたモデルの汎化につながることが多い。しかし、SSLの成功は、データに関する基本的な仮定が正しいかどうかに大きく依存する。これらの仮定が成立しない場合(例えば、ラベル付けされていないデータの分布がラベル付けされたデータと大きく異なる場合)、SSL手法は性能を低下させる可能性さえある。SSL手法の慎重な選択と実装は極めて重要であり、多くの場合、MLOpsの実践に関する専門知識が必要となる。

ツールとトレーニング

最新のディープラーニング(DL)フレームワークの多くは、以下を含む。 PyTorchPyTorch 公式サイト)や TensorFlowTensorFlow 公式サイト)を含む多くの最新のディープラーニング(DL)フレームワークは、SSLアルゴリズムを実装するための機能を提供したり、適応させたりすることができます。Scikit-learnのようなライブラリーは、いくつかのSSLメソッドを提供しているUltralytics HUBのようなプラットフォームは、ラベル付けされたデータとラベル付けされていないデータが混在する可能性のあるデータセットUltralytics HUB Datasets documentation)の管理を容易にし、このようなデータ構造を活用するように設計されたモデルのトレーニングUltralytics HUB Cloud Training)とデプロイメント(model deployment options guide)を簡素化することで、プロセスを合理化する。SSLの研究は進化し続けており、NeurIPSや ICMLのような主要なAIカンファレンスでしばしば発表されています。

すべて読む