用語集

自己教師あり学習

自己教師あり学習が、効率的なトレーニングのためにラベルのないデータをどのように活用し、コンピュータ・ビジョンやNLPなどのAIにどのような変革をもたらすかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

教師なし学習は、ラベルのないデータを活用してモデルを学習する機械学習アプローチである。ラベル付けされたデータセットを必要とする教師あり学習とは異なり、自己教師あり学習はラベル付けされていないデータ自体の固有の構造から独自のラベルを作成する。この手法は、コンピュータ・ビジョン(CV)や自然言語処理(NLP)のように、膨大な量のラベルなしデータが容易に入手可能でありながら、手作業によるラベル付けにコストと時間がかかる分野で特に有用である。

自己教師あり学習の仕組み

自己教師あり学習の核となる考え方は、ラベル付けされていないデータからモデルが有用な表現を学習できるようにする「前文タスク」を設計することである。この前置きタスクは、それを解くにはデータ中の意味のあるパターンを理解する必要があるように定式化される。例えば、画像処理では、画像パッチに適用される回転を予測したり、グレースケール画像をカラー化したりすることがプレテキストタスクとなる。言語処理では、一般的なプレテキストタスクは、文中のマスクされた単語をモデルが予測するマスク言語モデリングである。

一旦モデルが大量のラベル無しデータを使ってプレテキストタスクで学習されると、データの一般的な特徴と表現を学習する。これらの学習された表現は、物体検出画像分類画像セグメンテーションなどの下流のタスクに転送され、微調整される。この転送学習能力は、教師あり学習の重要な利点である。

教師あり学習の応用

自己教師付き学習は、特にラベル付きデータが乏しかったり、入手にコストがかかったりする場合に、様々な領域で応用されている:

  • コンピュータビジョン 医用画像解析では、自己教師あり学習により、ラベル付けされていない医用画像(X線やMRIスキャンなど)の大規模なデータセットでモデルを事前学習することができる。これらの事前訓練されたモデルは、限られたラベル付きデータを使用して特定の診断タスクのために微調整され、医療画像の解釈の精度と効率を向上させることができる。例えば Ultralytics YOLOv8のようなモデルは、医療画像の異常を検出する性能を向上させるために、自己教師付き事前学習から恩恵を受けることができる。
  • 自然言語処理GPT-4のような大規模言語モデル(LLM)は、多くの場合、大量のテキストデータに対して自己教師あり学習技術を用いて事前にトレーニングされます。この事前学習により、GPT-4は一般的な言語理解と生成機能を学習し、その後、テキストの要約、翻訳、感情分析などの特定の自然言語処理タスク用に微調整されます。プロンプトチューニングのような技術は、新しいタスクに効率的に適応するために、これらの事前学習されたモデルをさらに活用する。

自己教師あり学習と類似概念の比較

教師あり学習を他の機械学習パラダイムと区別することは重要である:

  • 教師なし学習:どちらもラベル付けされていないデータを使うが、教師なし学習は、特定のタスク(クラスタリング、次元削減など)を意識することなく、データに内在する構造やパターンを見つけることを目的とする。一方、教師なし学習は、下流のタスクに有用な表現を学習するための事前タスクを定式化する。
  • 半教師あり学習半教師あり学習は、ラベル付けされたデータとラベル付けされていないデータの組み合わせを使用するが、それでも訓練にはある程度のラベル付けされたデータに依存する。自己教師付き学習は、主にラベルの付いていないデータから学習することに重点を置き、その後、少量のラベル付きデータで微調整を行う可能性がある。

自己教師付き学習は、機械学習における重要な進歩であり、利用可能な膨大な量のラベルなしデータの有効活用を可能にし、高価なラベル付きデータセットへの依存を軽減する。のようなモデルが進化し続けるにつれて Ultralytics YOLO11のようなモデルが進化し続けるにつれて、自己教師付き技術は、多様なビジョンAIアプリケーションのパフォーマンスと適用性を向上させる上で、ますます重要な役割を果たすようになるだろう。

すべて読む