グリーンチェック
クリップボードにコピーされたリンク

Meta FAIRのAI研究アップデート:SAM 2.1とCoTracker3

Meta FAIRの最新のAIモデル、SAM 2.1とCoTracker3をご覧ください。多様でリアルなアプリケーションのための高度なセグメンテーションとトラッキング機能を提供します。

人工知能(AI)は、新しいイノベーションとブレークスルーがかつてない速さで登場し、最近、興奮とエネルギーで賑わっている研究分野である。ここ数週間で、MetaのFundamental AI Research(FAIR)チームは、AIのさまざまな分野における課題に取り組むことを目的とした一連のツールとモデルを発表した。これらのリリースには、ヘルスケアロボット工学拡張現実などの多様な分野に影響を与える可能性のあるアップデートが含まれている。

例えば、更新されたSAM 2.1 モデルでは、オブジェクトのセグメンテーションが改善され、画像やビデオ内のオブジェクトを正確に識別し、分離することが容易になりました。一方、CoTracker3はポイントトラッキングに重点を置いており、オブジェクトが移動したり、部分的にブロックされたりした場合でも、ビデオフレーム内のポイントを追跡するのに役立ちます。 

Metaはまた、Llama言語モデルの軽量化、高速化、そしてロボット工学のための新しい触覚センシング技術を発表した。この記事では、Meta FAIRのこれらの最新リリースについて、各ツールが提供する機能を紹介する。それでは始めよう!

メタの強化セグメント何でもモデル:SAM 2.1

オブジェクトのセグメンテーションはコンピュータビジョンの重要なタスクであり、画像やビデオ内の別個のオブジェクトを識別し分離することを可能にし、特定の関心領域の分析を容易にする。Meta'sSegment Anything Model 2 (SAM 2)はリリース以来、医療画像や 気象学など様々な分野でオブジェクトのセグメンテーションに使用されてきました。コミュニティからのフィードバックに基づき、Metaは今回、SAM 2.1を発表しました。この改良版は、オリジナルモデルで発生したいくつかの課題に取り組み、全体としてより強力なパフォーマンスを 実現するように設計されています。

図 1. SAM 2.1 モデル性能のベンチマーク。

SAM 2.1では、新しいデータ増強技術により、視覚的に類似した、より小さなオブジェクトをよりよく処理するためのアップデートが含まれています。また、より長いビデオシーケンスでモデルをトレーニングすることで、オクルージョン(オブジェクトの一部が視界から隠れること)への対処方法を改善し、オブジェクトが一時的に遮られたとしても、時間をかけて「記憶」して認識できるようになりました。例えば、誰かが木の陰を歩く人物のビデオを撮影している場合、SAM 2.1は、反対側に再び現れた人物を追跡し、物体の位置と 動きの記憶を使って、視界が一時的に遮られたときのギャップを埋めることができます。

これらのアップデートと並行して、メタ社はSAM 2 Developer Suiteをリリースした。オープンソースの トレーニングコードと完全なデモインフラを提供することで、開発者は自分のデータで SAM 2.1を微調整し、さまざまなアプリケーションに統合することができる。

CoTracker3:Metaのトラッキング・モデルとその特徴とアップデート

もう一つの興味深いコンピュータビジョンのタスクは、ポイントトラッキングである。これは、ビデオ内の複数のフレームにわたって特定のポイントや特徴を追跡するものです。例えば、サイクリストがコースを走っているビデオを考えてみましょう。ポイントトラッキングは、ヘルメットや車輪のようなサイクリストのポイントを、たとえそれらが障害物で一瞬隠れたとしても、モデルが追跡し続けることを可能にします。

ポイントトラッキングは、3D再構成ロボット工学、ビデオ編集などのアプリケーションに不可欠です。従来のモデルは、複雑なセットアップと大規模な合成データセットに依存することが多く、実世界のシナリオに適用した場合の有効性に限界があります。 

MetaのCoTracker3トラッキングモデルは、モデルのアーキテクチャを単純化することで、これらの制限に対処しています。また、擬似ラベリング技術を導入し、注釈のない実際の動画からモデルを学習させることで、CoTracker3をより効率的かつスケーラブルに実用化しました。

図2.CoTracker3と他のトラッキングモデルの比較。

CoTracker3 の特長の一つは、オクルージョンをうまく処理できることです。CoTracker3は、モデルが複数の追跡ポイント間で情報を共有することを可能にする技術であるクロストラックアテンションを使用することで、目に見えるポイントを参照することで、隠れたポイントの位置を推測することができます。そうすることで、CoTracker3は、混雑したシーンで人物を追跡するようなダイナミックな環境でも高い効果を発揮するように設計されています。 

CoTracker3 には、オンラインモードとオフラインモードがあります。オンラインモードではリアルタイムトラッキングが可能です。オフラインモードは、ビデオ編集やアニメーションのような作業に理想的な、ビデオシーケンス全体のより包括的なトラッキングに使用できます。 

メタFAIRのその他の最新情報とリサーチ

SAM 2.1とCoTracker3は、コンピュータ・ビジョンにおけるメタの最新の進歩を紹介するものですが、自然言語処理(NLP)やロボット工学などAIの他の分野でもエキサイティングなアップデートがあります。Meta FAIRのその他の最新開発を見てみよう。

メタの精神LM:言語とマルチモーダルモデルにおけるAIの革新

Meta社のSpirit LMは、テキストと音声を 組み合わせた新しいマルチモーダル言語モデルで、AIとのインタラクションをより自然なものにする。テキストのみ、あるいは音声のみを扱う従来のモデルとは異なり、Spirit LMはこの2つをシームレスに切り替えることができる。 

Spirit LM は、より人間に近い感覚で言語を理解し、生成することができる。例えば、話し言葉や書き言葉を聞いて応答するバーチャルアシスタントを強化したり、音声とテキストを変換するアクセシビリティツールをサポートしたりすることができる。 

図3.Meta Spirit LMを用いた音声合成の例。

さらにMetaは、大規模な言語モデルをより効率的にするテクニックを開発した。そのひとつがレイヤースキップと呼ばれるもので、与えられたタスクに必要なレイヤーのみをアクティブにすることで、計算量と エネルギーコストの削減を支援する。これは、メモリや電力が限られたデバイス上のアプリケーションに特に有効だ。 

このようなデバイスにAIアプリケーションを展開する必要性を一歩進め、メタ社はLlamaモデルの 量子化バージョンも展開した。これらのモデルは、精度を犠牲にすることなく、モバイルデバイス上でより高速に実行できるように圧縮されている。 

Meta Linguaで見る最適化の未来

AIモデルの規模と複雑さが増すにつれ、その学習プロセスの最適化が極めて重要になってきている。最適化に関して、MetaはMeta Linguaを導入しました。Meta Linguaは柔軟で効率的なコードベースで、大規模な言語モデルの学習を容易にします。Meta Linguaのモジュール設計により、研究者は実験を素早くカスタマイズし、拡張することができます。 

研究者は技術的なセットアップに費やす時間を減らし、より多くの時間を実際の研究に費やすことができる。また、コードベースは軽量で統合が容易なため、小規模な実験から大規模なプロジェクトまで適しています。このような技術的なハードルを取り除くことで、Meta Linguaは、研究者がより速く進歩し、より簡単に新しいアイデアをテストできるようにします。

図4.Meta Linguaの概要。

メタのAIセキュリティ強化

量子コンピューター技術の進歩は、データ・セキュリティに新たな課題をもたらす。現在のコンピューターとは異なり、量子コンピューターは複雑な計算をより速く解くことができるようになる可能性が高い。つまり、現在機密情報の保護に使われている暗号化手法を破る可能性があるということだ。そのため、この分野の研究はますます重要になっている。量子コンピュータの未来に備えるためには、データを保護する新しい方法の開発が不可欠なのだ。

これに対処するため、メタ社はポスト量子暗号のセキュリティ強化を目的としたツールSalsaを開発した。Salsaは、研究者がAI主導の攻撃をテストし、潜在的な弱点を特定し、暗号システムの脆弱性をよりよく理解し、対処できるようにします。高度な攻撃シナリオをシミュレートすることで、Salsaは、量子時代により強く、より耐性のあるセキュリティ対策の開発を導くことができる貴重な洞察を提供する。

メタにおけるAIロボット工学の最新イノベーション

メタ社のロボット工学における最新の研究は、触覚、器用さ、人間との共同作業を強化することで、AIが物理的世界とより自然に相互作用できるようにすることに焦点を当てている。特にMeta Digit 360は、ロボットに洗練された触覚を与える先進的な触覚センサーである。このセンサーは、ロボットが質感や圧力、さらには物体の形状などの詳細を検出するのに役立ちます。これらの洞察により、ロボットはより正確に物体を扱うことができるようになり、ヘルスケアや 製造などの分野で極めて重要なものとなる。

メタ・デジット360の主な機能は以下の通り:

  • 幅広い触覚ディテールを捉えることができるよう、18の明確なセンシング機能を備えている。
  • このセンサーは1ミリニュートンの圧力変化も検出できるため、ロボットは繊細な質感や微妙な動きに反応することができる。
  • 指先の表面全体に800万以上のタクセル(小さな感知点)があり、タッチ情報の高解像度マップを提供する。

Meta Digit 360を拡張したMeta Digit Plexusは、様々なタッチセンサーを1つのロボットハンドに統合したプラットフォームである。このセットアップにより、ロボットは人間の手が感覚データを収集するのと同様に、一度に複数のポイントからのタッチ情報を処理することができる。

図5.メタ指神経叢。

AIの次の章への舞台設定

SAM 2.1やCoTracker3によるコンピュータビジョンの進歩から、言語モデルやロボット工学の新展開まで、メタ社の最新のAIアップデートは、AIが理論から実用的でインパクトのあるソリューションへと着実に移行していることを示している。 

これらのツールは、AIをより適応させ、さまざまな分野で役立つように設計されており、複雑な画像のセグメンテーションから人間の言語の理解、さらには物理的な空間で私たちと一緒に働くことまで、あらゆることに役立つ。 

Meta FAIRは、アクセシビリティと実世界への応用を優先することで、AIが実世界の課題に取り組み、有意義な方法で私たちの日常生活を向上させる未来に近づいている。 

AIに興味がありますか?最新のアップデートや洞察を得るために私たちのコミュニティに参加し、GitHubリポジトリをチェックしてください。また、コンピュータ・ビジョンが自動運転車や 農業などの産業でどのように利用できるかを調べることもできます!

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう