グリーンチェック
クリップボードにコピーされたリンク

Florence-2:Microsoft'最新の視覚言語モデル

Florence-2をご紹介します。Microsoft の視覚言語モデルで、オブジェクトの検出、セグメンテーション、ゼロショット性能が向上し、効率も抜群です。

2024年6月、Microsoft 、物体検出セグメンテーション、画像キャプション、グラウンディングを含む幅広いタスクを処理するように設計されたマルチモーダル視覚言語モデル(VLM)であるFlorence-2を発表した。Florence-2は、事前の特別なトレーニングなしにタスクを実行できることを意味するゼロショット性能の新しいベンチマークを設定し、他の最先端の視覚言語モデルよりも小さなモデルサイズを後押しします。

Florence-2の多用途性と改良された性能は、精度を向上させ、大規模なトレーニングの必要性を減らすことで、様々な産業に大きな影響を与える可能性を秘めています。この記事では、Florence-2の革新的な特徴を探り、他のVLMと性能を比較し、その潜在的な用途について説明します。

フローレンス2とは?

Florence-2は、単一の統一されたフレームワークの中で様々なタスクを処理することができる。このモデルの素晴らしい能力は、FLD-5Bと呼ばれる膨大な学習データセットのおかげでもある。FLD-5Bには、1億2600万枚の画像にわたって54億の注釈が含まれています。この包括的なデータセットは、Florence-2が様々な視覚タスクを高い精度と効率で処理するために必要な能力を備えるために特別に作成されました。 

Florence-2がサポートするタスクを詳しく見てみよう:

  • オブジェクト検出:画像内のオブジェクトを高精度で識別し、位置を特定することができます。
  • セグメンテーション:このタスクは、解析と解釈を容易にするために、画像を意味のあるセグメントに分割することを含む。
  • 画像のキャプションFlorence-2は、画像に文脈と詳細を提供する説明的なキャプションを生成することができます。
  • 視覚的グラウンディング:このモデルは、キャプションの特定のフレーズや単語と、画像の対応する領域を関連付けることができる。
  • ゼロショット・パフォーマンス:特別な訓練なしにタスクを実行できる。
図1.フローレンス2がどのように訓練されたかを理解する。

このモデルは、テキストベースのタスクと領域ベースのタスクの両方をサポートする。画像の特定の領域を含むタスクのために、特別な位置トークンがモデルの語彙に追加されます。これらのトークンは、オブジェクトを囲む長方形(ボックス表現)、4辺の形状(クワッドボックス表現)、多辺の形状(ポリゴン表現)など、さまざまな形状をモデルが理解するのに役立つ。 このモデルはクロスエントロピー損失と呼ばれる方法で学習され、予測値を正解と比較し、それに応じて内部パラメータを調整することで学習を助ける。

FLD-5Bデータセットの作成

FLD-5Bデータセットには、テキスト記述、リージョンとテキストのペア、テキスト、フレーズ、リージョンの組み合わせなど、さまざまなタイプのアノテーションが含まれている。FLD-5Bデータセットは、データ収集とアノテーションを含む2段階のプロセスを経て作成された。画像は、ImageNet-22k、Object 365、Open Images、Conceptual Captions、LAIONといった一般的なデータセットから入手した。FLD-5Bデータセットのアノテーションはほとんどが合成で、手作業でラベル付けされたものではなく、自動的に生成されたものである。 

図2.FLD-5Bデータセットの作成。

最初は、物体検出やセグメンテーションなど、特定のタスクに熟練した専門モデルがこれらの注釈を作成した。その後、アノテーションが詳細かつ正確であることを確認するために、フィルタリングとエンハンスメントプロセスが使用された。ノイズを除去した後、データセットはFlorence-2の出力を使用して継続的に注釈を更新し、改善する反復的な改良を経た。 

Florence-2のモデル・アーキテクチャを理解する

Florence-2のモデルアーキテクチャは、シーケンスからシーケンスへの学習アプローチに従っている。これは、モデルが入力シーケンス(テキストプロンプトを伴う画像のような)を処理し、出力シーケンス(説明やラベルのような)を段階的に生成することを意味する。sequence-to-sequenceフレームワークでは、各タスクは翻訳問題として扱われる。モデルは入力画像とタスク固有のプロンプトを受け取り、対応する出力を生成する。

図3.Florence-2の視覚言語モデル・アーキテクチャ。

このモデル・アーキテクチャーの中核にあるのは、画像エンコーダーとマルチモダリティー・エンコーダー・デコーダーを組み合わせたマルチモダリティー・エンコーダー・デコーダー・トランスフォーマーである。DaViT(Data-efficient Vision Transformer)と呼ばれる画像エンコーダーは、入力画像をビジュアル・トークン埋め込み(空間的情報(どこに何があるか)と意味的情報(何があるか)の両方をとらえた画像のコンパクトな表現)に変換して処理する。これらの視覚的トークンは、次にテキスト埋め込み(テキストの表現)と組み合わされ、このモデルはテキストデータと視覚データをシームレスに統合することができる。

フローレンス-2と他のVLMとの比較

Florence-2は、その印象的なゼロショット能力により、他の視覚言語モデルとは一線を画しています。PaliGemmaのような、様々なタスクに適応するために大規模な微調整に頼るモデルとは異なり、Florence-2は箱から出してすぐにうまく機能します。また、GPT-4VやFlamingoのような大型モデルにも対抗できます。GPT-4VやFlamingoは、多くのパラメーターを備えていますが、Florence-2のパフォーマンスには及ばないことがよくあります。例えば、Florence-2は、Kosmos-2の2倍以上のパラメーター数を持っているにもかかわらず、Kosmos-2よりも良いゼロショットの結果を達成しています。

ベンチマークテストにおいて、Florence-2はCOCOキャプションや参照表現理解のようなタスクで顕著な性能を示した。COCOデータセットのオブジェクト検出とセグメンテーションタスクでは、PolyFormerやUNINEXTのようなモデルを凌駕した。性能とリソース効率の両方が重要な実世界のアプリケーションにとって、非常に競争力のある選択肢である。

フローレンス-2の応用

Florence-2は、エンターテインメントアクセシビリティ教育など、さまざまな業界で使用することができます。理解を深めるために、いくつかの例を見てみましょう。

画像キャプションの用途

ストリーミング・プラットフォームで何を見ようか迷っているとき、映画の概要を読んで選ぶのに役立てるかもしれない。もしそのプラットフォームが、映画のポスターの詳細な説明も提供できるとしたらどうだろう?Florence-2は、画像の説明テキストを生成する画像キャプションによって、それを可能にします。Florence-2は、映画ポスターの詳細な説明を生成することができ、ストリーミング・プラットフォームを視覚障害ユーザーにとってより包括的なものにします。Florence-2は、登場人物、風景、文字など、ポスターの視覚的要素を分析することで、ポスターの内容や雰囲気を伝える詳細な説明文を作成することができます。下の画像は、Florence-2が提供できる詳細な説明のレベルを示しています。

図4.Florence-2が生成した画像キャプションの例。 

画像キャプションが役立つその他の例をいくつかご紹介します:

  • Eコマース画像キャプションは、商品画像の詳細な説明を提供し、顧客が商品の特徴や詳細をより明確に理解するのに役立ちます。
  • 旅行と観光:旅行ガイドやアプリでランドマークや観光スポットの詳細な説明を提供できる。
  • 教育画像キャプションは、教育用の画像や図にラベルを付けて説明することができ、教育や学習を支援します。
  • 不動産:潜在的な購入者のために、特徴や設備を強調する物件画像の詳細な説明を提供することができます。

料理中の視覚的グラウンディング

Florence-2はまた、料理体験を豊かにするために使うこともできる。例えば、オンラインの料理本は、Florence-2を使って、複雑なレシピ画像の一部を視覚的に接地し、ラベル付けすることができる。ビジュアルグラウンディングは、画像の特定の部分と対応する説明的なテキストをリンクすることによって、ここで役立ちます。各食材やステップが正確にラベル付けされ、説明されることで、家庭の料理人がレシピに従い、料理における各成分の役割を理解することが容易になります。

図5.Florence-2を使った視覚的グラウンディングの例。 

財務文書の地域ベースOCR

文書内の特定の領域からテキストを抽出することに重点を置いたリージョン・ベース処理によるOCRは、会計のような分野では便利です。財務文書の指定された領域を分析し、取引の詳細、口座番号、期日などの重要な情報を自動的に抽出することができます。手作業によるデータ入力の必要性を減らすことで、エラーを最小限に抑え、処理時間を短縮することができる。金融機関はこれを利用して、請求書処理、領収書の照合、小切手の清算などの作業を効率化し、取引の迅速化と顧客サービスの向上につなげることができる。 

図6.Florence-2を用いた領域付きOCRの抽出例。 

産業用途における地域ベースのセグメンテーション

領域ベースのセグメンテーションは、画像を意味のある部分に分割して集中的な分析と詳細な検査を行うもので、さまざまなプロセスの精度と効率を向上させる産業用アプリケーションを促進することができる。画像内の特定の領域に焦点を当てることで、この技術は部品や製品の詳細な検査と分析を可能にする。品質管理に関しては、ひび割れやズレなど、材料の欠陥や不一致を特定することができ、最高品質の製品のみが市場に出回ることを保証します。

図7.Florence-2を使ったリージョンに基づくセグメンテーションの例。

また、ロボットアームを特定の部品に誘導し、部品の配置と組み立てを最適化することで、自動組み立てラインを改善する。同様に、在庫管理では、商品の状態と位置を追跡・監視するのに役立ち、より効率的なロジスティクスとダウンタイムの削減につながる。全体として、地域ベースのセグメンテーションは精度と生産性を高め、産業現場でのコスト削減と製品品質の向上につながる。

要点

AIモデルが高性能を維持しながら軽量化される傾向が見え始めている。Florence-2は、視覚言語モデルという点で大きな一歩を踏み出した。Florence-2は、物体検出、セグメンテーション、画像キャプション付け、グラウンディングといった様々なタスクを、印象的なゼロショット性能で処理することができる。サイズが小さいにもかかわらず、Florence-2は効率的で多機能であるため、さまざまな産業分野での応用に非常に役立ちます。Florence-2のようなモデルは、AIイノベーションの可能性を広げ、さらなる可能性をもたらしている。

GitHubリポジトリにアクセスし、私たちのコミュニティに参加することで、AIについてさらに詳しく調べることができます。製造業や 農業におけるAIアプリケーションについては、ソリューションのページをご覧ください。🚀

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう