Florence-2をご紹介します。Microsoft の視覚言語モデルで、オブジェクトの検出、セグメンテーション、ゼロショット性能が向上し、効率も抜群です。
2024年6月、Microsoft 、物体検出、セグメンテーション、画像キャプション、グラウンディングを含む幅広いタスクを処理するように設計されたマルチモーダル視覚言語モデル(VLM)であるFlorence-2を発表した。Florence-2は、事前の特別なトレーニングなしにタスクを実行できることを意味するゼロショット性能の新しいベンチマークを設定し、他の最先端の視覚言語モデルよりも小さなモデルサイズを後押しします。
Florence-2の多用途性と改良された性能は、精度を向上させ、大規模なトレーニングの必要性を減らすことで、様々な産業に大きな影響を与える可能性を秘めています。この記事では、Florence-2の革新的な特徴を探り、他のVLMと性能を比較し、その潜在的な用途について説明します。
Florence-2は、単一の統一されたフレームワークの中で様々なタスクを処理することができる。このモデルの素晴らしい能力は、FLD-5Bと呼ばれる膨大な学習データセットのおかげでもある。FLD-5Bには、1億2600万枚の画像にわたって54億の注釈が含まれています。この包括的なデータセットは、Florence-2が様々な視覚タスクを高い精度と効率で処理するために必要な能力を備えるために特別に作成されました。
Florence-2がサポートするタスクを詳しく見てみよう:
このモデルは、テキストベースのタスクと領域ベースのタスクの両方をサポートする。画像の特定の領域を含むタスクのために、特別な位置トークンがモデルの語彙に追加されます。これらのトークンは、オブジェクトを囲む長方形(ボックス表現)、4辺の形状(クワッドボックス表現)、多辺の形状(ポリゴン表現)など、さまざまな形状をモデルが理解するのに役立つ。 このモデルはクロスエントロピー損失と呼ばれる方法で学習され、予測値を正解と比較し、それに応じて内部パラメータを調整することで学習を助ける。
FLD-5Bデータセットには、テキスト記述、リージョンとテキストのペア、テキスト、フレーズ、リージョンの組み合わせなど、さまざまなタイプのアノテーションが含まれている。FLD-5Bデータセットは、データ収集とアノテーションを含む2段階のプロセスを経て作成された。画像は、ImageNet-22k、Object 365、Open Images、Conceptual Captions、LAIONといった一般的なデータセットから入手した。FLD-5Bデータセットのアノテーションはほとんどが合成で、手作業でラベル付けされたものではなく、自動的に生成されたものである。
最初は、物体検出やセグメンテーションなど、特定のタスクに熟練した専門モデルがこれらの注釈を作成した。その後、アノテーションが詳細かつ正確であることを確認するために、フィルタリングとエンハンスメントプロセスが使用された。ノイズを除去した後、データセットはFlorence-2の出力を使用して継続的に注釈を更新し、改善する反復的な改良を経た。
Florence-2のモデルアーキテクチャは、シーケンスからシーケンスへの学習アプローチに従っている。これは、モデルが入力シーケンス(テキストプロンプトを伴う画像のような)を処理し、出力シーケンス(説明やラベルのような)を段階的に生成することを意味する。sequence-to-sequenceフレームワークでは、各タスクは翻訳問題として扱われる。モデルは入力画像とタスク固有のプロンプトを受け取り、対応する出力を生成する。
このモデル・アーキテクチャーの中核にあるのは、画像エンコーダーとマルチモダリティー・エンコーダー・デコーダーを組み合わせたマルチモダリティー・エンコーダー・デコーダー・トランスフォーマーである。DaViT(Data-efficient Vision Transformer)と呼ばれる画像エンコーダーは、入力画像をビジュアル・トークン埋め込み(空間的情報(どこに何があるか)と意味的情報(何があるか)の両方をとらえた画像のコンパクトな表現)に変換して処理する。これらの視覚的トークンは、次にテキスト埋め込み(テキストの表現)と組み合わされ、このモデルはテキストデータと視覚データをシームレスに統合することができる。
Florence-2は、その印象的なゼロショット能力により、他の視覚言語モデルとは一線を画しています。PaliGemmaのような、様々なタスクに適応するために大規模な微調整に頼るモデルとは異なり、Florence-2は箱から出してすぐにうまく機能します。また、GPT-4VやFlamingoのような大型モデルにも対抗できます。GPT-4VやFlamingoは、多くのパラメーターを備えていますが、Florence-2のパフォーマンスには及ばないことがよくあります。例えば、Florence-2は、Kosmos-2の2倍以上のパラメーター数を持っているにもかかわらず、Kosmos-2よりも良いゼロショットの結果を達成しています。
ベンチマークテストにおいて、Florence-2はCOCOキャプションや参照表現理解のようなタスクで顕著な性能を示した。COCOデータセットのオブジェクト検出とセグメンテーションタスクでは、PolyFormerやUNINEXTのようなモデルを凌駕した。性能とリソース効率の両方が重要な実世界のアプリケーションにとって、非常に競争力のある選択肢である。
Florence-2は、エンターテインメント、アクセシビリティ、教育など、さまざまな業界で使用することができます。理解を深めるために、いくつかの例を見てみましょう。
ストリーミング・プラットフォームで何を見ようか迷っているとき、映画の概要を読んで選ぶのに役立てるかもしれない。もしそのプラットフォームが、映画のポスターの詳細な説明も提供できるとしたらどうだろう?Florence-2は、画像の説明テキストを生成する画像キャプションによって、それを可能にします。Florence-2は、映画ポスターの詳細な説明を生成することができ、ストリーミング・プラットフォームを視覚障害ユーザーにとってより包括的なものにします。Florence-2は、登場人物、風景、文字など、ポスターの視覚的要素を分析することで、ポスターの内容や雰囲気を伝える詳細な説明文を作成することができます。下の画像は、Florence-2が提供できる詳細な説明のレベルを示しています。
画像キャプションが役立つその他の例をいくつかご紹介します:
Florence-2はまた、料理体験を豊かにするために使うこともできる。例えば、オンラインの料理本は、Florence-2を使って、複雑なレシピ画像の一部を視覚的に接地し、ラベル付けすることができる。ビジュアルグラウンディングは、画像の特定の部分と対応する説明的なテキストをリンクすることによって、ここで役立ちます。各食材やステップが正確にラベル付けされ、説明されることで、家庭の料理人がレシピに従い、料理における各成分の役割を理解することが容易になります。
文書内の特定の領域からテキストを抽出することに重点を置いたリージョン・ベース処理によるOCRは、会計のような分野では便利です。財務文書の指定された領域を分析し、取引の詳細、口座番号、期日などの重要な情報を自動的に抽出することができます。手作業によるデータ入力の必要性を減らすことで、エラーを最小限に抑え、処理時間を短縮することができる。金融機関はこれを利用して、請求書処理、領収書の照合、小切手の清算などの作業を効率化し、取引の迅速化と顧客サービスの向上につなげることができる。
領域ベースのセグメンテーションは、画像を意味のある部分に分割して集中的な分析と詳細な検査を行うもので、さまざまなプロセスの精度と効率を向上させる産業用アプリケーションを促進することができる。画像内の特定の領域に焦点を当てることで、この技術は部品や製品の詳細な検査と分析を可能にする。品質管理に関しては、ひび割れやズレなど、材料の欠陥や不一致を特定することができ、最高品質の製品のみが市場に出回ることを保証します。
また、ロボットアームを特定の部品に誘導し、部品の配置と組み立てを最適化することで、自動組み立てラインを改善する。同様に、在庫管理では、商品の状態と位置を追跡・監視するのに役立ち、より効率的なロジスティクスとダウンタイムの削減につながる。全体として、地域ベースのセグメンテーションは精度と生産性を高め、産業現場でのコスト削減と製品品質の向上につながる。
AIモデルが高性能を維持しながら軽量化される傾向が見え始めている。Florence-2は、視覚言語モデルという点で大きな一歩を踏み出した。Florence-2は、物体検出、セグメンテーション、画像キャプション付け、グラウンディングといった様々なタスクを、印象的なゼロショット性能で処理することができる。サイズが小さいにもかかわらず、Florence-2は効率的で多機能であるため、さまざまな産業分野での応用に非常に役立ちます。Florence-2のようなモデルは、AIイノベーションの可能性を広げ、さらなる可能性をもたらしている。
GitHubリポジトリにアクセスし、私たちのコミュニティに参加することで、AIについてさらに詳しく調べることができます。製造業や 農業におけるAIアプリケーションについては、ソリューションのページをご覧ください。🚀