ゼロショット学習:未知のデータを分類するモデルを可能にし、物体検出やNLPなどに革命をもたらす最先端のAIアプローチをご覧ください。
ゼロショット学習(ZSL)とは、機械学習(ML)における魅力的な能力であり、モデルが学習データ段階で見たことのないカテゴリから物体を認識・分類することができる。可能性のある全てのクラスに対して明示的な例を必要とする伝統的な教師あり学習とは異なり、ZSLはモデルがその知識を新しい、見たことのないクラスに汎化することを可能にする。これは、観察されたクラスと観察されていないクラスを、属性やテキスト埋め込みなどの高レベルの意味記述によって関連付けることで実現される。これによりAIモデルは、特に網羅的なラベル付きデータの収集が現実的でない実世界のシナリオにおいて、より柔軟でスケーラブルになる。
ZSLの中核となる考え方は、画像からの視覚的特徴とテキストからの意味情報の両方を表現できる共有埋め込み空間を作ることである。学習中、モデルは見たクラスの画像を対応する意味ベクトル(属性または単語埋め込み)に対応付けるように学習する。例えば、モデルは "馬 "の視覚的特徴を学習し、それらを "4本の足がある"、"哺乳類である"、"乗れる "といった意味的記述に結びつける。
シマウマ」のような未知のクラスの画像が提示されると、モデルはその視覚的特徴を抽出する。同時に、「シマウマ」の意味的記述、例えば「馬に似ている」、「縞模様がある」などを用いて、埋め込み空間における「シマウマ」の位置を特定する。抽出された視覚的特徴に最も近い意味的説明を見つけることで、たとえシマウマのトレーニング画像が1枚もなくても、モデルは画像を「シマウマ」として正しく分類することができる。このプロセスは多くの場合、視覚と言語を結びつけることに秀でたOpenAIのCLIPのような、事前に訓練された強力なマルチモーダルモデルに依存している。
ZSLを関連する学習技術と区別することは重要だ:
ZSLは、コンピュータビジョンシステムをよりダイナミックで適応性のあるものにし、数多くの実用的な応用がある。
その可能性にもかかわらず、ZSLはハブ問題(意味空間内のいくつかの点が、多すぎる点の最近傍になる)やドメインシフト(見たクラスと見たことのないクラスで特徴や属性間の関係が異なる)といった課題に直面している。これらの問題に対処するため、研究者は、推論中にモデルが見たクラスと見たことのないクラスの両方を認識しなければならない、一般化ゼロショット学習(GZSL)のような、よりロバストな技術を開発している。基礎モデルの進化とUltralytics HUBのようなプラットフォームは、ZSLの統合と展開をさらに簡素化し、AIシステムを大規模なデータラベリングに依存せず、より人間のような推論に近づけるだろう。