Yolo 深圳
深セン
今すぐ参加
用語集

ゼロショット学習

トレーニングデータなしでclassify detect classify ゼロショット学習(ZSL)を探求しましょう。Ultralytics YOLOリアルタイムのオープンボキャブラリ検出を実現する仕組みを学びます。

ゼロショット学習(ZSL)は、人工知能モデルが学習段階で遭遇したことのないdetect 認識、classify、またはdetect 可能にする機械学習のパラダイムである。従来の教師あり学習では、モデルが識別する必要のある特定のカテゴリごとに、何千ものラベル付き例が必要となる。 ZSLは補助情報(典型的にはテキスト記述、意味的属性、または埋め込み表現)を活用することで、学習済みクラスと未学習クラスの間のギャップを埋めることにより、この厳格な依存関係を排除します。この能力により、人工知能(AI)システムは、あらゆる可能性のある対象について網羅的なデータを収集することが非現実的な動的な環境を扱う上で、大幅に柔軟性と拡張性を高め、対応能力を向上させることが可能となります。

ゼロ・ショット・ラーニングの仕組み

ZSLの中核メカニズムは、共有意味空間を用いて既知の概念から未知の概念へ知識を転移させることにあります。 「シマウマ」を認識する学習において、単に黒と白の縞模様のピクセルパターンを記憶する代わりに、 このモデルは視覚的特徴と意味的属性(例:「馬のような形状」、「縞模様」、「四本足」)の関連性を学習する。 この意味的属性は自然言語処理(NLP)から導出される。

このプロセスは、画像とテキストの表現を整合させるマルチモーダルモデルに依存することが多い。例えば、OpenAIのCLIPのような基礎研究は、モデルが自然言語の監督から視覚的概念を学習する方法を実証している。 ZSLモデルが未見の物体に出会うと、視覚特徴を抽出し、 意味ベクトルの辞書と照合します。視覚特徴が新規クラスの意味的記述と一致すれば、 モデルはclassify 正しくclassify でき、実質的に「ゼロショット」予測を実行します。この手法は、 広範なタスク群に一般化できる現代の基盤モデルにとって 根本的なものです。

実際のアプリケーション

ゼロショット学習は、システムが初期の訓練データを超えて一般化することを可能にすることで、様々な産業における革新を推進している。

  1. オープンボキャブラリ物体検出: YOLO最新アーキテクチャはZSLを活用し、 ユーザー定義のテキストプロンプトに基づくdetect 。 これにより、膨大な動画アーカイブ内での特定アイテム検索など、 事前に固定クラスリストを定義できないシナリオでも 物体検出が可能となる。 Google 研究者らは、 こうしたオープンボキャブラリ機能の限界を 引き続き押し広げている。
  2. 医療診断: 医療分野におけるAIでは、希少疾患のラベル付きデータを取得することは往々にして困難かつ高コストである。ZSLモデルは、PubMedなどのデータベースに収録された医学文献から得られた一般的な疾患と希少症状の記述を用いて訓練可能であり、これによりシステムは大量の陽性症例データセットを必要とせずに、医療画像における潜在的な希少異常を検出できるようになる。
  3. 野生生物保護: 農業と生態学におけるAIでは、 写真に収められることの稀な絶滅危惧種の特定が極めて重要である。ZSLは、 生物学データベース(例:Encyclopedia of Life)で定義された属性ベースの記述を用い、 保護活動家がdetect 可能にする。

Ultralyticsゼロショット検出

Ultralytics YOLOモデルは、ゼロショット学習の実践例である。 このモデルは、再学習を必要とせずに実行時に動的にカスタムクラスを定義することを可能にする。 これは、堅牢な検出バックボーンと自然言語を理解するテキストエンコーダーを接続することで実現されている。

Python 、YOLOを使用して、標準的なトレーニングセットに明示的に含まれていなかったdetect 方法を示しています。 ultralytics パッケージで提供される。

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

関連概念との区別

ZSLを完全に理解するためには、次のような類似の学習戦略と区別することが役に立つ。 コンピュータビジョン(CV)で使用される同様の学習ストラテジーと区別することが有用である:

  • 少例学習(FSL) ZSLが対象クラスの例を一切必要としないのに対し、FSLはモデルに適応させるためのごく少数のサポートセット(通常1~5例)を提供する。ZSLは視覚的例ではなく意味的推論に完全に依存するため、一般的により困難とみなされている。
  • 一発学習FSLのサブセット。 FSLのサブセットで、モデルは正確に1つのラベル付き例から学習する。ZSLが根本的に異なるのは、新しいカテゴリの画像を1枚も使わずに学習することである。 ZSLは、新しいカテゴリの画像が1枚もなくても動作するので、根本的に異なる。
  • 転移学習この広義の あるタスクから別のタスクへ知識を伝達することを指す。ZSLは特定のタイプの転移学習である。 新しいデータで微調整を行うことなく、未知のクラスに知識を伝達するために意味属性を使用する。 新しいデータで微調整を行う必要がない

課題と今後の展望

ZSLは膨大な可能性を秘めている一方で、ドメインシフト問題といった課題に直面している。これは、学習中に習得された意味的属性が未見のクラスの視覚的外観に完全に対応しない現象である。さらに、ZSLモデルはバイアスに陥る可能性があり、既知のクラスに対する予測精度が未知のクラスに比べて著しく高くなる傾向がある。

スタンフォード大学AI研究所や IEEEコンピュータ協会などの組織による研究は、これらの制限への対応を継続している。コンピュータビジョンツールの堅牢性が高まるにつれ、ZSLは標準機能となり、膨大なデータラベリング作業への依存を軽減すると期待されている。高度なモデル展開前にデータセットを効率的に管理したいチーム向けに、Ultralytics アノテーションとデータセット管理のための包括的なツールを提供している。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加