自己教師あり学習が手動ラベリングの必要性を排除する仕組みを探求しましょう。Ultralytics 強化する生成型および対照型SSL手法について学びます。
自己教師あり学習(SSL)は、システムが外部の人間が提供するラベルに依存するのではなく、データ自体から独自の教師信号を生成することでデータを理解することを学ぶ機械学習のパラダイムである。従来の 教師あり学習では、モデルは「猫」や「犬」とラベル付けされた画像など、膨大な量の手動でアノテーションされたデータを必要とします。これは作成に費用と時間がかかる場合があります。SSLはこのボトルネックを回避し、モデルが入力データの隠れた部分や欠落部分を予測しなければならない「プレテキストタスク」を作成します。これにより、モデルは自らに、物体検出のような複雑なタスクに必要な基盤となる構造や特徴を効果的に教えます。 物体検出 や 分類といった複雑なタスクに必要な基盤構造や特徴を自ら学習する。
SSLの基本的な考え方は、データの一部をマスクまたは隠蔽し、 ニューラルネットワーク(NN)に に そのデータを再構築させたり、同一データの異なるビュー間の関係を予測させたりすることである。このプロセスにより、 汎用性の高い豊かな表現が生成され、後で特定のダウンストリームアプリケーション向けに微調整が可能となる。
SSLには主に2つのアプローチがあります:
自己教師付き学習は、強力な基盤モデルを構築するための礎となっている。 基盤モデル構築の礎となっている を構築する基盤となった。大量の未ラベルデータを活用する能力により、高い拡張性を実現している。
SSLと 教師なし学習。両手法ともラベル付けされていないデータを利用するものの、非監督学習は通常、特定の予測タスクなしに隠れたパターンや グループ化(クラスタリング)を発見することに焦点を当てる。一方、SSLは学習プロセスを、データ構造自体から自動的にラベルが生成される 監督タスクとして位置付ける。さらに、 半教師あり学習 は少量のラベル付きデータと大量のラベルなしデータを組み合わせるのに対し、純粋なSSLは ファインチューニングが行われる前に、ラベルなしデータセットから完全に独自のラベルを生成する。
Ultralytics では、 YOLO26 は、大規模データセット(例: ImageNet)での事前学習段階で、 SSL(Supervised Self-Learning)と同様の原理を組み込んだ高度な トレーニング戦略によって 大幅な効果を得ています。 ImageNet や COCOなどの大規模データセットに対する事前学習段階で、SSLと同様の原理を組み込んだ高度なトレーニング戦略から大きな恩恵を受ける。これにより、ユーザーが特定のタスクにモデルを適用する際、特徴抽出器が既に頑健であることが保証される。
ユーザーはこれらの強力な事前学習済み表現を活用し、独自のカスタムデータセット上でモデルを微調整できます。 Ultralytics を使用してモデルを微調整できます。
事前学習済みYOLO26モデルを読み込み、初期の大規模学習で習得した特徴を活用しながら新規データセットで微調整を開始する簡潔な例を以下に示す:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (weights learned from large-scale data)
model = YOLO("yolo26n.pt")
# Fine-tune the model on a specific dataset (e.g., COCO8)
# This leverages the robust feature representations learned during pre-training
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
主要研究所の研究者たちのように Meta AI や Google これらの技術を磨き続ける中、 SSLは生成AIの限界を押し広げている。 生成AI とコンピュータービジョンにおける可能性の限界を押し広げている。 ラベル付きデータへの依存度を低減することで、SSLは高性能AIへのアクセスを民主化し、小規模なチームでも 野生生物保護のようなニッチな用途向けに洗練されたモデルを構築できるようにしている。 野生生物保護 や 産業検査といったニッチな用途向けの高度なモデルを構築することを可能にしています。