用語集

CLIP(対照言語イメージプレトレーニング)

OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界での応用により、どのようにAIに革命をもたらすかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

CLIP(Contrastive Language-Image Pre-training)は、OpenAIによって開発されたニューラルネットワークで、自然言語の記述から視覚的な概念を直接学習する。CLIPは、従来の画像分類モデルのように事前に定義されたラベルを持つ管理されたデータセットに依存するのではなく、インターネットから収集された画像とテキストのペアの膨大なコレクションで学習される。CLIPは、画像とそれを説明するために使用される単語との関係を理解するために、対比学習と呼ばれる技術を使用しています。これによりCLIPは、明示的に訓練されていないタスクでも、ゼロショット学習と呼ばれる機能により、驚くほど優れた性能を発揮する。

クリップの仕組み

CLIPのアーキテクチャには、画像エンコーダーとテキストエンコーダーの2つの主要コンポーネントがある。画像エンコーダーは、Vision Transformer(ViT)やResNetのようなアーキテクチャをベースにしていることが多く、画像を処理して視覚的特徴を取り込む。同時に、テキストエンコーダは、通常、自然言語処理(NLP)で使用されるものと同様のTransformerモデルで、対応するテキスト記述を処理して意味的な意味を抽出する。学習中、モデルは共有空間内で画像とテキストの両方の表現(埋め込み)を作成するように学習する。目標は、バッチ内の不正確なペアの類似度を最小にする一方で、正しい画像とテキストのペアの埋め込み間の類似度スコアを最大にすることである。この対比的な目的は、視覚的要素とそのテキスト的対応とを効果的に関連付けることをモデルに教える。

主な特徴と利点

CLIPの際立った特徴は、その強力なゼロショット学習機能である。CLIPは画像と言語の一般的な関係を学習するため、追加のトレーニングを必要とせずに、新しい未見のテキスト記述に基づいて画像を分類することができる。例えば、CLIPがトレーニング中に「アボカドの肘掛け椅子」とラベル付けされた画像を見たことがなくても、視覚的スタイル、物体(アボカドや肘掛け椅子のような)、説明的な単語の間の学習された関連付けを利用して、そのテキストプロンプトが提供されれば、その画像を識別できる可能性がある。このため、CLIPは様々なコンピュータビジョン(CV)タスクに対して非常に柔軟で適応性が高く、ImageNetのようなベンチマークデータセットで特別に訓練されたモデルと比較しても、しばしば高い性能を達成する。

実世界での応用

CLIPのユニークな能力は、いくつかの実用的なアプリケーションを可能にする:

  • 画像の検索と取得:CLIPを使うことで、ユーザーは、あらかじめ定義されたタグだけに頼るのではなく、自由形式のテキストクエリ(例えば「山に沈む夕日の写真を見せて」など)を使って、膨大な画像ライブラリを検索することができる。Unsplashのようなプラットフォームは、CLIPを使って画像検索を改善することを模索している。
  • コンテンツモデレーション:CLIPは、ありとあらゆる違反カテゴリーについて明示的にラベル付けされた大規模なデータセットを必要とせずに、テキストで記述された特定の概念(例えば、「暴力の描写」や「ブランドガイドラインの非遵守」)を含む画像を識別することができます。これは、コンテンツフィルタリングにより柔軟なアプローチを提供します。

クリップと他のモデルの比較

CLIPは他の一般的なAIモデルとは大きく異なる:

  • 従来の画像分類器:これらのモデル(多くの場合、教師あり学習によって訓練される)は、通常、認識する必要がある特定のカテゴリごとにラベル付けされたデータを必要とし、訓練セット外の概念に苦労します。CLIPのゼロショットという性質は、この制限を克服しています。
  • 物体検出器:以下のようなモデル Ultralytics YOLOのようなモデルは、バウンディングボックスを使用して画像内の複数のオブジェクトを識別し、位置を特定することに重点を置いているのに対し、CLIPは主にテキストに関連する画像コンテンツを全体として理解することに重点を置いている。
  • その他のマルチモーダルモデル: Visual Question Answering (VQA)やImage Captioningのようなタスクのモデルも画像やテキストを処理しますが、それらはしばしば特定の入出力形式(例えば、質問に答える、キャプションを生成する)のために学習されます。CLIPは、より汎用的で柔軟な視覚概念とテキスト概念のマッピングを学習します。 Ultralytics ブログでは、さまざまな視覚言語モデルについて詳しく説明しています。

限界と今後の方向性

その長所にもかかわらず、CLIPには限界がある。CLIPの理解力は、膨大で未修正のウェブデータに存在するバイアスに影響される可能性があり、AIにおける公平性に関する問題につながる可能性がある。また、非常に細かい細部の認識、空間的推論、物体の正確なカウントを必要とするタスクに苦戦する可能性もある。現在進行中の研究では、バイアスの緩和、きめ細かな理解の改善、CLIPの意味的知識とYOLOようなモデルの空間的位置特定能力を組み合わせる方法の探求に焦点を当てている。AIの最新動向はUltralytics ブログでご覧いただけます。異なるアーキテクチャの特徴を組み合わせる可能性を含め、モデルのトレーニングとデプロイは、Ultralytics HUBのようなプラットフォームを使って管理することができます。

すべて読む