OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界での応用により、どのようにAIに革命をもたらすかをご覧ください。
CLIP(Contrastive Language-Image Pre-training)は、OpenAIによって開発されたニューラルネットワークで、自然言語の記述から視覚的な概念を直接学習する。CLIPは、従来の画像分類モデルのように事前に定義されたラベルを持つ管理されたデータセットに依存するのではなく、インターネットから収集された画像とテキストのペアの膨大なコレクションで学習される。CLIPは、画像とそれを説明するために使用される単語との関係を理解するために、対比学習と呼ばれる技術を使用しています。これによりCLIPは、明示的に訓練されていないタスクでも、ゼロショット学習と呼ばれる機能により、驚くほど優れた性能を発揮する。
CLIPのアーキテクチャには、画像エンコーダーとテキストエンコーダーの2つの主要コンポーネントがある。画像エンコーダーは、Vision Transformer(ViT)やResNetのようなアーキテクチャをベースにしていることが多く、画像を処理して視覚的特徴を取り込む。同時に、テキストエンコーダは、通常、自然言語処理(NLP)で使用されるものと同様のTransformerモデルで、対応するテキスト記述を処理して意味的な意味を抽出する。学習中、モデルは共有空間内で画像とテキストの両方の表現(埋め込み)を作成するように学習する。目標は、バッチ内の不正確なペアの類似度を最小にする一方で、正しい画像とテキストのペアの埋め込み間の類似度スコアを最大にすることである。この対比的な目的は、視覚的要素とそのテキスト的対応とを効果的に関連付けることをモデルに教える。
CLIPの際立った特徴は、その強力なゼロショット学習機能である。CLIPは画像と言語の一般的な関係を学習するため、追加のトレーニングを必要とせずに、新しい未見のテキスト記述に基づいて画像を分類することができる。例えば、CLIPがトレーニング中に「アボカドの肘掛け椅子」とラベル付けされた画像を見たことがなくても、視覚的スタイル、物体(アボカドや肘掛け椅子のような)、説明的な単語の間の学習された関連付けを利用して、そのテキストプロンプトが提供されれば、その画像を識別できる可能性がある。このため、CLIPは様々なコンピュータビジョン(CV)タスクに対して非常に柔軟で適応性が高く、ImageNetのようなベンチマークデータセットで特別に訓練されたモデルと比較しても、しばしば高い性能を達成する。
CLIPのユニークな能力は、いくつかの実用的なアプリケーションを可能にする:
CLIPは他の一般的なAIモデルとは大きく異なる:
その長所にもかかわらず、CLIPには限界がある。CLIPの理解力は、膨大で未修正のウェブデータに存在するバイアスに影響される可能性があり、AIにおける公平性に関する問題につながる可能性がある。また、非常に細かい細部の認識、空間的推論、物体の正確なカウントを必要とするタスクに苦戦する可能性もある。現在進行中の研究では、バイアスの緩和、きめ細かな理解の改善、CLIPの意味的知識とYOLOようなモデルの空間的位置特定能力を組み合わせる方法の探求に焦点を当てている。AIの最新動向はUltralytics ブログでご覧いただけます。異なるアーキテクチャの特徴を組み合わせる可能性を含め、モデルのトレーニングとデプロイは、Ultralytics HUBのようなプラットフォームを使って管理することができます。