用語集

ゼロ・ショット・ラーニング

ゼロショット学習:未知のデータを分類するモデルを可能にし、物体検出やNLPなどに革命をもたらす最先端のAIアプローチをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ゼロショット学習(ZSL)は、機械学習(ML)の中の魅力的な分野であり、モデルは学習中に一度も明示的に見たことのないオブジェクトや概念を認識するように学習される。可能性のある全てのカテゴリーについて多数のラベル付き例を必要とする伝統的な教師あり学習手法とは異なり、ZSLは、これらの新しいクラスを記述する補助情報を活用することで、モデルが未知のクラスについて予測を行うことを可能にする。この機能は、より適応性が高くスケーラブルな人工知能(AI)システムを構築する上で極めて重要であり、特に、考え得る全てのカテゴリーについてラベル付けされたデータを取得することが現実的でない、あるいは不可能なドメインにおいて重要である。

ゼロ・ショット・ラーニングの仕組み

ZSLの中核となる考え方は、共有された意味空間を使って、見たクラスと見たことのないクラスの間のギャップを埋めることである。この空間は多くの場合、テキストや知識ベースから得られる高レベルの記述、属性、埋め込みに依存する。学習中、モデルは「見た」クラスの例のみを使用して、入力データ(画像やテキストなど)とこの意味空間との間のマッピングを学習する。例えば、あるモデルは、馬や虎の画像(見られるクラス)と、それらに対応する属性(例えば、「蹄がある」、「縞模様がある」、「哺乳類である」)を関連付けることを学習するかもしれない。

未知のクラス(例えばシマウマ)のインスタンスが提示されると、モデルはその特徴を抽出し、学習された意味空間にマッピングする。次に、このマッピングを、未見のクラスの意味記述(例えば、シマウマを記述する「縞模様がある」、「ひづめがある」、「哺乳類である」という属性)と比較する。この空間で最も近い意味記述を持つクラスが予測として選ばれる。このプロセスには、ディープラーニング(DL)のテクニックが使われることが多く、特徴抽出には畳み込みニューラルネットワーク(CNN)のようなアーキテクチャを利用し、視覚的特徴を意味属性に関連付けるマッピング関数には、ヴィジョン・トランスフォーマー(ViT)の概念やCLIPのようなモデルを活用することもある。

類似コンセプトとの主な違い

ZSLを関連する学習パラダイムと区別することは重要だ:

  • 数ショット学習(FSL)FSLは、クラスごとに非常に少数のラベル付き例(例えば1~5)から新しい概念を学習することを目的とする。フューショット学習、ゼロショット学習、転移学習の理解についてもっと読む。
  • ワンショット学習(OSL)FSLの特殊なケースで、新しいクラスごとに1つのラベル付き例が提供される。
  • 転移学習あるタスクから得た知識を、関連する別のタスクに適用する、より広い概念。ZSLは転移学習の一形態であるが、特に、全く見たことのないクラスを認識するための知識(多くの場合、意味属性を通じて)を転移することに焦点を当てている。以下のようなモデル Ultralytics YOLOv8のようなモデルは、カスタム学習にCOCOのような大規模データセットからの転移学習を利用することが多い。
  • 自己教師あり学習(SSL)SSLモデルは、プレテキスト・タスク(例えば、入力のマスクされた部分を予測する)を作成することで、ラベル付けされていないデータから表現を学習する。事前学習には有用だが、SSLはZSLで使用されているような追加メカニズムなしでは、本質的に未見クラスを扱えない。

実世界での応用

ZSLは様々な分野で大きな可能性を秘めている:

  1. コンピュータビジョン(CV)- 細かい物体認識:学習データが乏しい画像から、希少種の動物や植物、特定の製品モデルを識別する。例えば、一般的な鳥類について学習したシステムは、事前に視覚的な例がなくても、その羽毛、くちばしの形状、生息地に関するテキスト記述に基づいて希少種を識別することができる。これは、標準的な物体検出や、見たことのあるクラスのみで訓練された画像分類を超える機能である。YOLOようなモデルは、オープン・ボキャブラリー検出のための同様のアイデアに基づく。
  2. 自然言語処理(NLP)- トピック識別と意図認識:文書、電子メール、またはユーザーからの問い合わせを、最初の学習データセットには存在しない新しいトピックやインテントに分類すること。例えば、カスタマーサポートのチャットボットは、新しく発売された製品の機能に関するクエリを、その機能の説明を使用して分類することができます。これは、GPT-4のような大規模言語モデル(LLM)の力を活用します。

課題と今後の方向性

ZSLは有望であるにもかかわらず、ハブネス問題(意味空間内のいくつかの点が多くの点の最近傍になる)やドメインシフト(見たクラスと見たことのないクラスで特徴と属性の関係が異なる)などの課題に直面している。研究は、よりロバストな意味埋め込み、より優れたマッピング関数、推論中に見たクラスと見たことのないクラスの両方を認識することを目的とした一般化ゼロショット学習(GZSL)のようなテクニックの探求を続けている。Ultralytics HUBのようなプラットフォームの開発は、実用的な視覚AIアプリケーションへのZSL機能の統合と展開を促進する可能性がある。さらなる進歩は、視覚と言語を本質的に結びつけるマルチモーダルモデルからインスピレーションを得るかもしれない。

すべて読む