ゼロショット学習:未知のデータを分類するモデルを可能にし、物体検出やNLPなどに革命をもたらす最先端のAIアプローチをご覧ください。
ゼロショット学習(ZSL)は、機械学習(ML)の中の魅力的な分野であり、モデルは学習中に一度も明示的に見たことのないオブジェクトや概念を認識するように学習される。可能性のある全てのカテゴリーについて多数のラベル付き例を必要とする伝統的な教師あり学習手法とは異なり、ZSLは、これらの新しいクラスを記述する補助情報を活用することで、モデルが未知のクラスについて予測を行うことを可能にする。この機能は、より適応性が高くスケーラブルな人工知能(AI)システムを構築する上で極めて重要であり、特に、考え得る全てのカテゴリーについてラベル付けされたデータを取得することが現実的でない、あるいは不可能なドメインにおいて重要である。
ZSLの中核となる考え方は、共有された意味空間を使って、見たクラスと見たことのないクラスの間のギャップを埋めることである。この空間は多くの場合、テキストや知識ベースから得られる高レベルの記述、属性、埋め込みに依存する。学習中、モデルは「見た」クラスの例のみを使用して、入力データ(画像やテキストなど)とこの意味空間との間のマッピングを学習する。例えば、あるモデルは、馬や虎の画像(見られるクラス)と、それらに対応する属性(例えば、「蹄がある」、「縞模様がある」、「哺乳類である」)を関連付けることを学習するかもしれない。
未知のクラス(例えばシマウマ)のインスタンスが提示されると、モデルはその特徴を抽出し、学習された意味空間にマッピングする。次に、このマッピングを、未見のクラスの意味記述(例えば、シマウマを記述する「縞模様がある」、「ひづめがある」、「哺乳類である」という属性)と比較する。この空間で最も近い意味記述を持つクラスが予測として選ばれる。このプロセスには、ディープラーニング(DL)のテクニックが使われることが多く、特徴抽出には畳み込みニューラルネットワーク(CNN)のようなアーキテクチャを利用し、視覚的特徴を意味属性に関連付けるマッピング関数には、ヴィジョン・トランスフォーマー(ViT)の概念やCLIPのようなモデルを活用することもある。
ZSLを関連する学習パラダイムと区別することは重要だ:
ZSLは様々な分野で大きな可能性を秘めている:
ZSLは有望であるにもかかわらず、ハブネス問題(意味空間内のいくつかの点が多くの点の最近傍になる)やドメインシフト(見たクラスと見たことのないクラスで特徴と属性の関係が異なる)などの課題に直面している。研究は、よりロバストな意味埋め込み、より優れたマッピング関数、推論中に見たクラスと見たことのないクラスの両方を認識することを目的とした一般化ゼロショット学習(GZSL)のようなテクニックの探求を続けている。Ultralytics HUBのようなプラットフォームの開発は、実用的な視覚AIアプリケーションへのZSL機能の統合と展開を促進する可能性がある。さらなる進歩は、視覚と言語を本質的に結びつけるマルチモーダルモデルからインスピレーションを得るかもしれない。