OpenAIのCLIPが、ゼロショット学習、画像とテキストのアライメント、コンピュータビジョンの実世界での応用により、どのようにAIに革命をもたらすかをご覧ください。
CLIP(Contrastive Language-Image Pre-training)は、OpenAIが開発したニューラルネットワークで、自然言語の監視から視覚概念を学習する。あらかじめ決められたカテゴリの固定セットで訓練される従来のコンピュータビジョンモデルとは異なり、CLIPは幅広いテキスト記述に基づいて画像を理解し、分類することができる。これは、インターネットからかき集めた画像とテキストのペアの膨大なデータセットでモデルを訓練することによって達成され、画像とそれに対応するテキスト説明が密接に一致する共有表現空間を学習することを可能にする。この革新的なアプローチにより、CLIPは「ゼロショット学習」を行うことができます。つまり、CLIPは、単にそれらのカテゴリのテキスト記述を理解するだけで、トレーニング中に一度も明示的に見たことのないカテゴリに画像を正確に分類することができるのです。
CLIPのアーキテクチャは、画像エンコーダーとテキストエンコーダーの2つの主要コンポーネントで構成されている。画像エンコーダは、典型的にはVision Transformer(ViT)またはResidual Network(ResNet)であり、画像を処理し、その視覚的特徴を抽出する。テキストエンコーダは、多くの場合、自然言語処理(NLP)で使用されるものと同様のTransformerモデルで、対応するテキスト記述を処理し、その意味的特徴を抽出する。学習中、CLIPは画像とテキストのペアのバッチを提示される。このモデルの目的は、符号化された画像表現とその正しいテキスト記述との間の類似度を最大化する一方で、画像と誤ったテキスト記述との間の類似度を最小化することである。これは対照的な損失関数によって達成され、モデルに、関連する画像とテキストが近接し、関連しないものが遠ざかる共有埋め込み空間を学習するように促す。
CLIPの最も大きな利点の1つは、ゼロショット学習ができることである。CLIPは画像と幅広いテキスト概念との関連付けを学習するため、学習時には見られなかった新しいカテゴリーに汎化することができる。例えば、CLIPが猫と犬の画像にそれぞれのラベルを付けて学習した場合、「帽子をかぶった猫」の画像を分類できる可能性がある。この能力により、CLIPは様々なコンピュータビジョン(CV)タスクに高い適応性と汎用性を持つ。さらに、CLIPの性能は、特にデータセットのサイズや多様性が限られている場合、特定のデータセットで訓練された教師ありモデルの性能を上回ることが多い。これは、CLIPがインターネットからの膨大な事前学習データを活用することで、視覚概念に対するより幅広い理解が得られるためです。
CLIPのユニークな機能は、様々な実世界のアプリケーションでの採用につながっている。代表的な例を2つ挙げる:
CLIPは他のマルチモーダルモデルと類似点があるものの、対照学習とゼロショット機能に焦点を当てているため、際立っている。視覚的質問応答(VQA)システムのようなモデルも画像とテキストの両方を処理しますが、一般的に、汎用的な共有表現空間を学習するのではなく、画像に関する特定の質問に答えるように学習されます。同様に、画像キャプションシステムのようなモデルは、画像のテキスト説明を生成しますが、多くの場合、画像とキャプションのペアデータセットに対する教師あり学習に依存しており、CLIPのように未知の概念にうまく一般化できない可能性があります。CLIPは、自然言語の記述から、その概念に関する明示的なトレーニングなしに、幅広い視覚的概念を理解する能力を備えているため、AIや機械学習のさまざまな用途で強力なツールとなります。関連する視覚言語モデルの詳細については、Ultralytics ブログをご覧ください。
その素晴らしい能力にもかかわらず、CLIPに限界がないわけではない。1つの課題は、事前学習データの質と多様性に依存していることである。データに存在するバイアスは、モデルの学習された表現に反映される可能性があり、不公平または不正確な予測につながる可能性がある。研究者たちは、このようなバイアスを軽減し、CLIPのようなモデルの公平性を向上させる手法に積極的に取り組んでいる。現在進行中のもう一つの研究分野は、CLIPのきめ細かい視覚的詳細や複雑な構成概念を理解する能力の向上です。CLIPは一般的な視覚概念を捉えることに優れていますが、正確な空間的推論や物体間の複雑な関係の理解を必要とするタスクでは苦戦する可能性があります。モデルアーキテクチャ、トレーニング技術、データキュレーションにおける今後の進歩により、これらの限界に対処し、CLIPのようなモデルの能力をさらに高めることが期待される。例えば、CLIPをUltralytics YOLO のようなモデルと統合することで、実世界の様々なアプリケーションに対して、より堅牢で多用途なシステムを構築できるようになるかもしれない。AIの最新情報は、Ultralytics ブログでご覧いただけます。