メタAIの研究：SAM 2.1 & CoTracker3｜ウルトラリティクス・ハブ

メタの強化されたセグメント何でもモデル：SAM 2.1

CoTracker3：Metaのトラッキングモデルとその機能、アップデート

Meta FAIRによるその他の最新情報と調査

メタの精神LM：言語とマルチモーダルモデルにおけるAIの革新

Meta Linguaで最適化の未来を見る

メタのAIセキュリティ強化

メタにおけるAIロボット工学の最新イノベーション

AIの次の章への舞台設定

人工知能（AI）は、新しいイノベーションとブレークスルーがかつてない速さで登場し、最近、興奮とエネルギーで賑わっている研究分野である。ここ数週間で、MetaのFundamental AI Research（FAIR）チームは、AIのさまざまな分野における課題に取り組むことを目的とした一連のツールとモデルを発表した。これらのリリースには、ヘルスケア、ロボット工学、拡張現実などの多様な分野に影響を与える可能性のあるアップデートが含まれている。

例えば、更新されたSAM 2.1モデルでは、オブジェクトのセグメンテーションが改善され、画像やビデオ内のオブジェクトを正確に識別し、分離することが容易になりました。一方、CoTracker3はポイントトラッキングに重点を置いており、オブジェクトが移動したり、部分的にブロックされたりした場合でも、ビデオフレーム内のポイントを追跡するのに役立ちます。

Metaはまた、Llama言語モデルの軽量化、高速化、そしてロボット工学のための新しい触覚センシング技術を発表した。この記事では、Meta FAIRのこれらの最新リリースについて、各ツールが提供する機能を紹介する。それでは始めよう！

メタの強化されたセグメント何でもモデル：SAM 2.1

オブジェクトのセグメンテーションは、コンピュータビジョンの重要なタスクの1つであり、画像やビデオ内の別個のオブジェクトを識別し分離することで、特定の関心領域の分析を容易にします。リリース以来、MetaのSegment Anything Model 2 (SAM 2)は、医療画像や気象学など様々な分野でオブジェクトのセグメンテーションに使用されてきました。コミュニティからのフィードバックに基づき、MetaはSAM 2.1を発表しました。SAM 2.1は、オリジナルモデルで発生したいくつかの課題に取り組み、全体としてより強力なパフォーマンスを提供するように設計された改良版です。

__wf_reserved_inherit — 図1.SAM 2.1モデルの性能ベンチマーク。

‍

SAM 2.1には、新しいデータ増強技術により、視覚的に類似した、より小さなオブジェクトをより良く扱うためのアップデートが含まれています。また、より長いビデオシーケンスでモデルをトレーニングすることで、オクルージョン（オブジェクトの一部が視界から隠れること）への対処方法を改善し、オブジェクトが一時的に遮られたとしても、時間をかけて「記憶」して認識できるようになりました。例えば、誰かが木の陰を歩いているビデオを撮影している場合、SAM 2.1は、反対側に再び現れた人物を追跡し、物体の位置と動きの記憶を使って、視界が一時的に遮られたときのギャップを埋めることができます。

これらのアップデートと同時に、Meta社はSAM 2 Developer Suiteをリリースし、オープンソースのトレーニングコードと完全なデモインフラを提供することで、開発者はSAM 2.1を独自のデータで微調整し、様々なアプリケーションに統合することができる。

CoTracker3：Metaのトラッキングモデルとその機能、アップデート

もう一つの興味深いコンピュータビジョンのタスクは、ポイントトラッキングである。これは、ビデオ内の複数のフレームにわたって特定のポイントや特徴を追跡するものです。例えば、サイクリストがコースを走っているビデオを考えてみましょう。ポイントトラッキングは、ヘルメットや車輪のようなサイクリストのポイントを、たとえそれらが障害物で一瞬隠れたとしても、モデルが追跡し続けることを可能にします。

ポイントトラッキングは、3D再構成、ロボット工学、ビデオ編集などのアプリケーションに不可欠です。従来のモデルは、複雑なセットアップと大規模な合成データセットに依存することが多く、実世界のシナリオに適用した場合の有効性に限界があります。

MetaのCoTracker3トラッキングモデルは、モデルのアーキテクチャを簡素化することで、これらの制限に対処しています。また、擬似ラベリング技術を導入し、注釈のない実際の動画からモデルを学習させることで、CoTracker3をより効率的かつスケーラブルに実用化しました。

‍

CoTracker3 の特長の一つは、オクルージョンをうまく処理できることです。CoTracker3は、モデルが複数の追跡ポイント間で情報を共有することを可能にする技術であるクロストラックアテンションを使用することで、目に見えるポイントを参照することで、隠れたポイントの位置を推測することができます。そうすることで、CoTracker3は、混雑したシーンで人物を追跡するようなダイナミックな環境でも高い効果を発揮するように設計されています。

CoTracker3 には、オンラインモードとオフラインモードがあります。オンラインモードではリアルタイムトラッキングが可能です。オフラインモードは、ビデオ編集やアニメーションのような作業に理想的な、ビデオシーケンス全体のより包括的なトラッキングに使用できます。

Meta FAIRによるその他の最新情報と調査

SAM2.1とCoTracker3は、コンピュータビジョンにおけるメタの最新の進歩を紹介するものですが、自然言語処理（NLP）やロボット工学など、AIの他の分野でもエキサイティングなアップデートがあります。Meta FAIRのその他の最新開発について見てみよう。

メタの精神LM：言語とマルチモーダルモデルにおけるAIの革新

Meta社のSpirit LMは、テキストと音声を組み合わせた新しいマルチモーダル言語モデルで、AIとのインタラクションをより自然なものにする。テキストのみ、あるいは音声のみを扱う従来のモデルとは異なり、Spirit LMはこの2つをシームレスに切り替えることができる。

Spirit LM は、より人間に近い感覚で言語を理解し、生成することができる。例えば、話し言葉や書き言葉を聞いて応答するバーチャルアシスタントを強化したり、音声とテキストを変換するアクセシビリティツールをサポートしたりすることができる。

‍

さらにMetaは、大規模な言語モデルをより効率的にするテクニックを開発した。そのひとつがレイヤースキップと呼ばれるもので、与えられたタスクに必要なレイヤーのみをアクティブにすることで、計算量とエネルギーコストの削減を支援する。これは、メモリや電力が限られたデバイス上のアプリケーションに特に有効だ。

このようなデバイスにAIアプリケーションを展開する必要性を一歩進め、メタ社はLlamaモデルの量子化バージョンも展開した。これらのモデルは、精度を犠牲にすることなく、モバイルデバイス上でより高速に実行できるように圧縮されている。

Meta Linguaで最適化の未来を見る

AIモデルの規模と複雑さが増すにつれ、その学習プロセスの最適化が極めて重要になっている。最適化に関して、MetaはMeta Linguaを導入しました。Meta Linguaは柔軟で効率的なコードベースで、大規模な言語モデルのトレーニングを容易にします。Meta Linguaのモジュール設計により、研究者は実験を素早くカスタマイズし、拡張することができます。

研究者は技術的なセットアップに費やす時間を減らし、より多くの時間を実際の研究に費やすことができる。また、コードベースは軽量で統合が容易なため、小規模な実験から大規模なプロジェクトまで適しています。このような技術的なハードルを取り除くことで、Meta Linguaは、研究者がより速く進歩し、より簡単に新しいアイデアをテストできるようにします。

‍

メタのAIセキュリティ強化

量子コンピューター技術の進歩は、データ・セキュリティに新たな課題をもたらす。現在のコンピューターとは異なり、量子コンピューターは複雑な計算をより速く解くことができるようになる可能性が高い。つまり、現在機密情報の保護に使われている暗号化手法を破る可能性があるということだ。そのため、この分野の研究はますます重要になっている。量子コンピュータの未来に備えるためには、データを保護する新しい方法の開発が不可欠なのだ。

これに対処するため、メタ社はポスト量子暗号のセキュリティ強化を目的としたツールSalsaを開発した。Salsaは、研究者がAI主導の攻撃をテストし、潜在的な弱点を特定し、暗号システムの脆弱性をよりよく理解し、対処できるようにします。高度な攻撃シナリオをシミュレートすることで、Salsaは、量子時代により強く、より耐性のあるセキュリティ対策の開発を導くことができる貴重な洞察を提供する。

メタにおけるAIロボット工学の最新イノベーション

メタ社のロボット工学における最新の研究は、触覚、器用さ、人間との共同作業を強化することで、AIが物理的世界とより自然に相互作用できるようにすることに焦点を当てている。特にMeta Digit 360は、ロボットに洗練された触覚を与える先進的な触覚センサーである。このセンサーは、ロボットが質感や圧力、さらには物体の形状などの詳細を検出するのに役立ちます。これらの洞察により、ロボットはより正確に物体を扱うことができるようになり、ヘルスケアや製造などの分野で極めて重要なものとなる。

メタ・デジット360の主な機能は以下の通り：

幅広い触覚ディテールを捉えることができるよう、18の明確なセンシング機能を備えている。
‍
このセンサーは1ミリニュートンの圧力変化も検知できるため、ロボットは繊細な質感や微妙な動きに反応することができる。
‍。
指先の表面全体に800万以上のタクセル（小さな感知点）があり、タッチ情報の高解像度マップを提供する。

Meta Digit 360を拡張したMeta Digit Plexusは、様々なタッチセンサーを1つのロボットハンドに統合したプラットフォームである。このセットアップにより、ロボットは人間の手が感覚データを収集するのと同様に、一度に複数のポイントからのタッチ情報を処理することができる。

‍

AIの次の章への舞台設定

SAM2.1やCoTracker3によるコンピュータビジョンの進化から、言語モデルやロボット工学の新展開まで、メタ社の最新のAIアップデートは、AIが理論から実用的でインパクトのあるソリューションへと着実に移行していることを示している。

これらのツールは、AIをより適応させ、さまざまな分野で役立つように設計されており、複雑な画像のセグメンテーションから人間の言語の理解、さらには物理的な空間で私たちと一緒に働くことまで、あらゆることに役立つ。

Meta FAIRは、アクセシビリティと実世界への応用を優先することで、AIが実世界の課題に取り組み、有意義な方法で私たちの日常生活を向上させる未来に近づいている。

AIに興味がありますか？最新のアップデートや洞察を得るために私たちのコミュニティに参加し、GitHubリポジトリをチェックしてください。また、コンピュータ・ビジョンが自動運転車や農業などの産業でどのように利用できるかを探ることもできます！

Meta FAIRによるAI研究の最新情報：SAM 2.1とCoTracker3

メタの強化されたセグメント何でもモデル：SAM 2.1

CoTracker3：Metaのトラッキングモデルとその機能、アップデート