Florence-2: マイクロソフトのゼロショット・ビジョンAI

2024年6月、マイクロソフトは、物体検出、セグメンテーション、画像キャプション、グラウンディングを含む幅広いタスクを処理するように設計されたマルチモーダル視覚言語モデル（VLM）であるFlorence-2を発表した。Florence-2は、事前の特別なトレーニングなしにタスクを実行できることを意味するゼロショット性能の新しいベンチマークを設定し、他の最先端の視覚言語モデルよりも小さなモデルサイズを後押しします。

Florence-2の多用途性と改良された性能は、精度を向上させ、大規模なトレーニングの必要性を減らすことで、様々な産業に大きな影響を与える可能性を秘めています。この記事では、Florence-2の革新的な特徴を探り、他のVLMと性能を比較し、その潜在的な用途について説明します。

フローレンス2とは？

Florence-2は、単一の統一されたフレームワークの中で様々なタスクを処理することができる。このモデルの素晴らしい能力は、FLD-5Bと呼ばれる膨大な学習データセットのおかげでもある。FLD-5Bには、1億2600万枚の画像にわたって54億の注釈が含まれている。この包括的なデータセットは、Florence-2が様々な視覚タスクを高い精度と効率で処理するために必要な能力を備えるために特別に作成されました。

Florence-2がサポートするタスクを詳しく見てみよう：

オブジェクト検出:
‍ 画像内の物体を高精度で識別し、位置を特定することができる。
セグメンテーション:
‍ 画像を意味のあるセグメントに分割し、解析や解釈を容易にするタスク。
画像のキャプションFlorence-2は、画像に文脈や詳細を提供する説明的なキャプションを生成することができます。
‍
視覚的グラウンディング：
‍ キャプション内の特定のフレーズや単語を、画像内の対応する領域と関連付けることができる。
ゼロショット・パフォーマンス：特別な訓練なしにタスクを実行できる。

__wf_reserved_inherit — 図1.フローレンス2がどのように訓練されたかを理解する。

‍

このモデルは、テキストベースのタスクと領域ベースのタスクの両方をサポートする。画像の特定の領域を含むタスクのために、特別な位置トークンがモデルの語彙に追加されます。これらのトークンは、オブジェクトを囲む長方形（ボックス表現）、4辺の形状（クワッドボックス表現）、多辺の形状（ポリゴン表現）など、さまざまな形状をモデルが理解するのに役立つ。モデルはクロスエントロピー損失と呼ばれる方法で学習され、予測値を正解と比較し、それに応じて内部パラメータを調整することで学習を助ける。

FLD-5Bデータセットの作成

FLD-5Bデータセットには、テキスト記述、リージョンとテキストのペア、テキスト、フレーズ、リージョンの組み合わせなど、さまざまなタイプのアノテーションが含まれている。FLD-5Bデータセットは、データ収集とアノテーションを含む2段階のプロセスを経て作成された。画像は、ImageNet-22k、Object 365、Open Images、Conceptual Captions、LAIONといった一般的なデータセットから入手した。FLD-5Bデータセットのアノテーションはほとんどが合成で、手作業でラベル付けされたものではなく、自動的に生成されたものである。

‍

最初は、物体検出やセグメンテーションなど、特定のタスクに熟練した専門モデルがこれらの注釈を作成した。その後、アノテーションが詳細かつ正確であることを確認するために、フィルタリングとエンハンスメントプロセスが使用された。ノイズを除去した後、データセットはFlorence-2の出力を使用して継続的に注釈を更新し、改善する反復的な改良を経た。

Florence-2のモデル・アーキテクチャを理解する

Florence-2のモデルアーキテクチャは、シーケンスからシーケンスへの学習アプローチに従っている。これは、モデルが入力シーケンス（テキストプロンプト付き画像のような）を処理し、出力シーケンス（説明やラベルのような）を段階的に生成することを意味する。sequence-to-sequenceフレームワークでは、各タスクは翻訳問題として扱われ、モデルは入力画像とタスク固有のプロンプトを受け取り、対応する出力を生成する。

‍

このモデル・アーキテクチャーの中核にあるのは、画像エンコーダーとマルチモダリティー・エンコーダー・デコーダーを組み合わせたマルチモダリティー・エンコーダー・デコーダー・トランスフォーマーである。DaViT（Data-efficient Vision Transformer）と呼ばれる画像エンコーダーは、入力画像をビジュアル・トークン埋め込み（空間的情報（どこに何があるか）と意味的情報（何があるか）の両方をとらえた画像のコンパクトな表現）に変換して処理する。これらの視覚的トークンは、次にテキスト埋め込み（テキストの表現）と組み合わされ、このモデルはテキストデータと視覚データをシームレスに統合することができる。

フローレンス-2と他のVLMとの比較

Florence-2は、その印象的なゼロショット能力により、他の視覚言語モデルとは一線を画しています。PaliGemmaのような、様々なタスクに適応するために大規模な微調整に頼るモデルとは異なり、Florence-2は箱から出してすぐにうまく機能します。また、GPT-4VやFlamingoのような大型モデルにも対抗できる。GPT-4VやFlamingoは、多くのパラメーターを備えているが、Florence-2のパフォーマンスには及ばないことが多い。例えば、Florence-2は、Kosmos-2の2倍以上のパラメーター数を持っているにもかかわらず、Kosmos-2よりも良いゼロショットの結果を達成しています。

ベンチマークテストにおいて、Florence-2はCOCOキャプションや参照表現理解のようなタスクで顕著な性能を示した。COCOデータセットのオブジェクト検出とセグメンテーションタスクでは、PolyFormerやUNINEXTのようなモデルを凌駕した。性能とリソース効率の両方が重要な実世界のアプリケーションにとって、非常に競争力のある選択肢である。

フローレンス-2の応用

Florence-2は、エンターテインメント、アクセシビリティ、教育など、さまざまな業界で使用することができます。理解を深めるために、いくつかの例を見てみましょう。

画像キャプションの応用

ストリーミング・プラットフォームで何を見ようか迷っているとき、映画の要約を読んで選ぶことがあるだろう。もしそのプラットフォームが、映画のポスターの詳細な説明も提供できるとしたらどうだろう？Florence-2は、画像の説明テキストを生成する画像キャプションによって、それを可能にします。Florence-2は、映画ポスターの詳細な説明を生成することができ、ストリーミング・プラットフォームを視覚障害ユーザーにとってより包括的なものにします。Florence-2は、登場人物、風景、文字など、ポスターの視覚的要素を分析することで、ポスターの内容や雰囲気を伝える詳細な説明文を作成することができます。下の画像は、Florence-2が提供できる詳細な説明のレベルを示しています。

‍

画像キャプションが役立つその他の例をいくつかご紹介します：

Eコマース
‍画像にキャプションを付けることで、商品画像の詳細な説明を提供でき、顧客が商品の特徴や詳細をより明確に理解できるようになる。
旅行と観光：
‍ 旅行ガイドやアプリでランドマークや観光スポットの詳細な説明を提供できる。
教育：画像キャプションは、教育用の画像や図にラベルを付けたり、説明したりすることができ、教育や学習に役立ちます。
‍
不動産：潜在的な購入者のために、特徴や設備を強調する物件画像の詳細な説明を提供することができます。

料理中の視覚的グラウンディング

Florence-2はまた、料理体験を豊かにするために使うこともできる。例えば、オンラインの料理本は、Florence-2を使って、複雑なレシピ画像の一部を視覚的に接地し、ラベル付けすることができる。ビジュアルグラウンディングは、画像の特定の部分と対応する説明的なテキストをリンクすることで、ここで役立ちます。各食材やステップが正確にラベル付けされ、説明されることで、家庭の料理人がレシピに従い、料理における各要素の役割を理解することが容易になります。

‍

財務文書の地域ベースOCR

文書内の特定の領域からテキストを抽出することに重点を置いたリージョン・ベース処理によるOCRは、会計のような分野では便利です。財務文書の指定された領域を分析し、取引の詳細、口座番号、期日などの重要な情報を自動的に抽出することができます。手作業によるデータ入力の必要性を減らすことで、エラーを最小限に抑え、処理時間を短縮することができる。金融機関はこれを利用して、請求書処理、領収書の照合、小切手の清算などの作業を効率化し、取引の迅速化と顧客サービスの向上につなげることができる。

‍

産業用途における地域ベースのセグメンテーション

領域ベースのセグメンテーションは、画像を意味のある部分に分割し、集中的な分析と詳細な検査を行うもので、さまざまなプロセスの精度と効率を向上させる産業用アプリケーションを促進することができる。画像内の特定の領域に焦点を当てることで、この技術は部品や製品の詳細な検査と分析を可能にする。品質管理に関しては、ひび割れやズレなど、材料の欠陥や不一致を特定することができ、最高品質の製品のみが市場に出回ることを保証します。

‍

また、ロボットアームを特定の部品に誘導し、部品の配置と組み立てを最適化することで、自動組み立てラインを改善する。同様に、在庫管理では、商品の状態と場所を追跡・監視するのに役立ち、より効率的なロジスティクスとダウンタイムの削減につながる。全体として、地域ベースのセグメンテーションは精度と生産性を高め、産業現場でのコスト削減と製品品質の向上につながる。

要点

AIモデルが高性能を維持しながら軽量化される傾向が見え始めている。Florence-2は、視覚言語モデルという点で、大きな一歩を踏み出した。Florence-2は、物体検出、セグメンテーション、画像キャプション付け、グラウンディングといった様々なタスクを、印象的なゼロショット性能で処理することができる。Florence-2は、その小さなサイズにもかかわらず、効率的で多機能であるため、さまざまな業界にわたるアプリケーションの面で非常に有用です。Florence-2のようなモデルは、AIイノベーションの可能性を広げ、さらなる可能性をもたらしている。

GitHubリポジトリにアクセスし、私たちのコミュニティに参加することで、AIについてさらに詳しく調べることができます。製造業や農業におけるAIアプリケーションについては、ソリューションのページをご覧ください。🚀

フローレンス-2：マイクロソフトの最新ビジョン言語モデル

フローレンス2とは？

FLD-5Bデータセットの作成

Florence-2のモデル・アーキテクチャを理解する

フローレンス-2と他のVLMとの比較

フローレンス-2の応用

画像キャプションの応用

料理中の視覚的グラウンディング

財務文書の地域ベースOCR

産業用途における地域ベースのセグメンテーション

要点

このカテゴリの続きを読む

OpenAIのGPT-5を探る：スマートな統合システム

グーグルAlphaEarth、全球マッピングに観測データを利用

FastVLM：アップル、新しい高速ビジョン言語モデルを発表

AIの未来
を一緒に作りましょう！

フローレンス-2：マイクロソフトの最新ビジョン言語モデル

フローレンス2とは？

FLD-5Bデータセットの作成

Florence-2のモデル・アーキテクチャを理解する

フローレンス-2と他のVLMとの比較

フローレンス-2の応用

画像キャプションの応用

料理中の視覚的グラウンディング

財務文書の地域ベースOCR

産業用途における地域ベースのセグメンテーション

要点

このカテゴリの続きを読む

OpenAIのGPT-5を探る：スマートな統合システム

グーグルAlphaEarth、全球マッピングに観測データを利用

FastVLM：アップル、新しい高速ビジョン言語モデルを発表

AIの未来を一緒に作りましょう！

AIの未来
を一緒に作りましょう！