Meta AIのSegment Anything Model 2 (SAM 2)に潜入し、様々な業界でどのようなリアルタイムアプリケーションに使用できるかを理解しましょう。
2024年7月29日、Meta AIはSegment Anything Modelの第2バージョン、SAM 2をリリースした。この新しいモデルは、画像と動画の両方において、どのピクセルがターゲットオブジェクトに属するかをピンポイントで特定することができる!最も優れている点は、このモデルがリアルタイムでビデオの全フレームにわたって一貫してオブジェクトを追跡できることだ。SAM 2は、ビデオ編集、複合現実体験、コンピュータビジョンシステムのトレーニングのための視覚データのより速いアノテーションのためのエキサイティングな可能性を開く。
海洋科学、衛星画像、医療などの分野で使用されてきたオリジナルのSAM の成功に基づき、SAM 2 は、動きの速い物体や外観の変化などの課題に取り組んでいる。精度と効率が向上したことで、幅広い用途に使える汎用性の高いツールとなっている。この記事では、SAM 2がどのような分野で応用できるのか、そしてなぜAIコミュニティにとって重要なのかに焦点を当てる。
Segment Anything Model 2は、画像と動画の両方でプロンプト可能なビジュアルセグメンテーションまたはPVSをサポートする高度な基礎モデルです。PVSは、ユーザによって与えられた特定のプロンプトや入力に基づいて、モデルが画像やビデオの異なる部分をセグメント化または識別することができる技術です。これらのプロンプトは、関心のある領域を強調するクリック、ボックス、またはマスクの形式をとることができる。そしてモデルは、指定された領域の輪郭を描くセグメンテーションマスクを生成する。
SAM 2 のアーキテクチャは、オリジナルのSAM をベースに、画像セグメンテーションからビデオ・セグメンテーショ ンに拡張したものである。画像データとプロンプトを使用してセグメンテーション・マスクを作成する、軽量のマスク・デコーダーが特徴である。動画については、SAM 2 はメモリシステムを導入しており、前のフレームからの情報を記憶することで、時間経過に伴う正確なトラッキングを実現している。メモリシステムには、セグメンテーションされるオブジェクトの詳細を記憶し、呼び出すコンポーネントが含まれる。SAM 2はまた、オクルージョンを処理し、複数のフレームを通してオブジェクトを追跡し、いくつかの可能性のあるマスクを生成することによって、あいまいなプロンプトを管理することができる。SAM 2の高度なアーキテクチャは、静的な視覚環境と動的な視覚環境の両方で高い能力を発揮する。
具体的には、ビデオ・セグメンテーションに関して、SAM 2 は、以前の手法と比較して、3 倍少ないユーザー・インタラクションで高い精度を達成した。画像セグメンテーションに関しては、SAM 2 はオリジナルのSegment Anything Model (SAM) を上回り、6 倍高速かつ高精度である。この改善は、SAM が以前にテストされた 23 のデータセットを含む、37 の異なるデータセットにわたって、SAM 2 の研究論文で紹介された。
興味深いことに、Meta AIのSAM 2は、これまでで最大のビデオ・セグメンテーション・データセットであるSA-Vデータセットを作成することによって開発された。この大規模なデータセットには、50,000以上のビデオと3,550万以上のセグメンテーションマスクが含まれ、インタラクティブなユーザー投稿によって収集された。アノテーターは、多種多様なシナリオとオブジェクトタイプからモデルが学習するのを助けるために、プロンプトと修正を提供した。
画像とビデオのセグメンテーションにおける高度な機能のおかげで、SAM 2 はさまざまな業界で使用できる。これらのアプリケーションのいくつかを見てみよう。
Meta AIの新しいセグメンテーションモデルは、拡張現実(AR)や仮想現実(VR)アプリケーションに使用できる。例えば、SAM 2 は、現実世界のオブジェクトを正確に識別してセグメント化し、仮想オブジェクトとのインタラクションをよりリアルに感じさせることができる。ゲーム、教育、トレーニングなど、仮想と現実の要素間のリアルな相互作用が不可欠な様々な分野で有用である。
ARメガネのようなデバイスがより進化しているため、SAM 2の機能が近いうちに統合されるかもしれない。 メガネをかけてリビングルームを見渡すことを想像してみてほしい。メガネがセグメント化され、愛犬の水飲み器に気づいたら、下の画像のように水を補充するよう促してくれるかもしれない。あるいは、あなたが新しいレシピを調理している場合、メガネはカウンタートップにある材料を識別し、ステップ・バイ・ステップの手順やヒントを提供することができる。
このモデル(SAM )を用いた研究は、ソナーイメージングのような特殊な領域にも適用できることを示している。ソナー画像は、解像度が低く、ノイズレベルが高く、画像内の物体の形状が複雑であるため、独自の課題がある。ソナー画像用にSAM を微調整することで、研究者たちは、海洋ゴミ、地層、その他の関心事項など、さまざまな水中物体を正確にセグメント化する能力を実証した。正確で信頼性の高い水中画像は、海洋研究、水中考古学、漁業管理、生息地のマッピング、人工物の発見、脅威の検出などのタスクの監視に利用できる。
SAM 2は、SAM が直面している多くの課題を基に改良されているため、ソナー画像の解析をさらに改善できる可能性がある。その正確なセグメンテーション能力は、科学研究や漁業を含むさまざまな海洋アプリケーションを支援することができる。例えば、SAM 2 は、水中構造物の輪郭を効果的に描き出したり、海洋ゴミを検出したり、前方探査ソナー画像内の物体を識別したりすることができ、より正確で効率的な水中探査やモニタリングに貢献する。
ソナーイメージングの解析にSAM 2を使用することの潜在的な利点は以下の通りである:
SAM 2をソナー・イメージング・プロセスに統合することで、海洋産業は水中探査と分析においてより高い効率性、精度、信頼性を達成することができ、最終的には海洋研究においてより良い結果を導くことができる。
SAM 2のもう一つの応用は、自律走行車である。SAM 2は、歩行者、他の車両、道路標識、障害物などのオブジェクトをリアルタイムで正確に識別することができる。SAM 2が提供できる詳細なレベルは、安全なナビゲーションや衝突回避の判断に不可欠である。視覚データを正確に処理することで、SAM 2 は詳細で信頼性の高い環境マップの作成を支援し、より良い意思決定につながります。
SAM 2 は、さまざまな照明条件、天候の変化、動的な環境でも機能する能力を備えているため、自律走行車にとって信頼性の高いものとなっている。交通量の多い都会の通りであろうと霧の高速道路であろうと、SAM 2は一貫して物体を正確に識別し、セグメント化することができるため、車両はさまざまな状況に正しく対応することができる。
しかし、留意すべき限界もある。複雑で動きの速い物体に対しては、SAM 2 は細かいディテールを見逃すことがあり、その予測はフレーム間で不安定になることがある。また、SAM 2は、混雑したシーンで複数の似たような物体を混同することがある。このような課題があるため、自律走行アプリケーションでは、追加のセンサーとテクノロジーの統合が極めて重要なのです。
コンピュータビジョンを使った環境モニタリングは、特に注釈付きデータが不足している場合には厄介なものだが、それこそがSAM 2 の興味深いアプリケーションである理由でもある。SAM 2 は、衛星画像やドローン画像から森林、水域、都市部、農地などさまざまな環境特徴を正確にセグメンテーションし識別することで、自然景観の変化を追跡・分析するために使用できる。特に、正確なセグメンテーションは、森林伐採、都市化、土地利用の経年変化を監視し、環境保全や計画立案に貴重なデータを提供するのに役立つ。
SAM 2のようなモデルを使用して経年的な環境変化を分析する利点は以下の通りである:
Segment Anything 2 Demoは、このモデルを動画で試すのに最適です。SAM 2のPVS機能を使って、古いUltralytics YouTubeの動画を取り出し、動画内の3つのオブジェクトや人物をセグメント化し、ピクセル化することができました。従来、このような動画から3人の人物を編集するには、時間と手間がかかり、フレームごとに手作業でマスキングする必要があった。しかし、SAM 2はこのプロセスを簡素化する。デモを数回クリックするだけで、興味のある3つのオブジェクトのアイデンティティを数秒で保護することができます。
デモでは、トラッキングのために選択したオブジェクトにスポットライトを当てたり、トラッキングされているオブジェクトを消したりといった、いくつかの異なる視覚効果も試すことができます。デモが気に入り、SAM 2 を使ってイノベーションを始める準備ができたら、Ultralytics SAM 2 モデルのドキュメントページで、モデルを実際に使ってみるための詳しい説明をご覧ください。あなたのプロジェクトでSAM 2 の可能性を十分に活用するために、機能、インストール手順、例を調べてみてください!
Meta AIのSegment Anything Model 2 (SAM 2)は、ビデオや画像のセグメンテーションに変革をもたらします。オブジェクトトラッキングのようなタスクが改善されるにつれて、我々はビデオ編集、複合現実、科学研究、医療画像において新たな機会を発見している。複雑なタスクを容易にし、アノテーションを高速化することで、SAM 2 は、AIコミュニティにとって重要なツールになる準備が整っています。SAM 2のようなモデルの探求と革新を続けることで、様々な分野での画期的な応用と進歩がさらに期待できる!
GitHubリポジトリや コミュニティに参加して、AIについてもっと知ってください。製造業や ヘルスケアにおけるAIの詳細については、ソリューションのページをご覧ください。🚀