グリーンチェック
クリップボードにコピーされたリンク

Google モデルが、よりスマートなロボットを生み出す

Google Gemini RoboticsがAI搭載ロボットをマルチモーダル知能で強化し、適応性、器用さ、シームレスなヒューマンインタラクションを向上させる方法をご紹介します。

何十年もの間、ロボットは未来を象徴し、研究所やSF映画、最先端産業のプロトタイプ・ショーケースに登場してきた。そして今、近年の人工知能(AI)の進歩のおかげで、これらのプロトタイプは管理された環境を超えて実世界での応用へと移行しつつある。 

具体的には、ジェミニ・ロボティクスによって、Google よりスマートなロボットを作るために必要な技術に一歩近づこうとしている。2025年3月12日に発表されたジェミニ・ロボティクス・モデルと、その付属モデルであるジェミニ・ロボティクス-ER(Embodied Reasoning)は、Google 最新のイノベーションである。 

これらは、テキスト、画像、音声、ビデオなど様々なタイプのデータを処理・生成できるマルチモーダルな大規模言語モデル(LLM)であるGemini 2.0上に構築されており、より多様で自然なインタラクションを促進する。これらのモデルは、Gemini 2.0のマルチモーダル機能を物理的な世界にもたらし、より器用で、インタラクティブで、インテリジェントなロボットを実現します。

例えば、固定された指示に従う従来のロボットとは異なり、ジェミニ・ロボティクスのモデルと統合されたロボットは、視覚と言語を処理することができる。これにより、リアルタイムでの判断や環境の変化への適応が可能になる。

この記事では、Gemini RoboticsとGemini Robotics-ERについて、これらのモデルがどのように機能するのか、主な特徴と用途についてご紹介します。さっそく始めよう!

図1.ジェミニ・ロボティクスは、ロボットが複数のタスクを効率的に実行できるよう支援する。

Google 紹介

Googleジェミニ・ロボティクスは、ロボットに物理的な世界を認識し、推論し、対話する能力を与えるために設計された高度なAIモデルである。視覚-言語-動作(VLA)モデルとして、ロボットが指示を処理し、環境を解釈し、複雑なタスクを高精度で実行することを可能にする。

一方、Gemini Robotics-ERモデルは、物体がどのように配置され、どのように動き、どのように相互作用するかという空間的関係を理解するロボットの能力を向上させる。これは、ロボットが行動を予測し、それに応じて動きを調整するのに役立つ。 

例えば、ロボットがヘッドホンにワイヤーを巻き付ける必要があるタスクを考えてみよう。Gemini Robotics-ERは、ロボットがシーンを理解し、ワイヤの形状と柔軟性を認識し、ヘッドホンの構造を特定し、ワイヤが移動する際にどのように曲がるかを予測するのに役立つ。そして、ジェミニ・ロボティクスはこの理解を行動に移し、両手を協調させてワイヤーをスムーズに操作し、絡まらないようにグリップを調整し、確実に巻き付ける。

知覚と行動を組み合わせることで、ジェミニ・ロボティクスとジェミニ・ロボティクス-ERは、ロボットがダイナミックな環境において器用な作業を効率的に行うことを可能にするインテリジェントなシステムを構築している。

図2.Gemini Roboticsモデルファミリーの概要。

ロボット工学におけるAI:ジェミニ・ロボティクスの仕組みを探る

次に、Gemini RoboticsとGemini Robotics-ERがどのように連携して柔軟性と素早い動作を両立させているのかをより理解するために、各モデルを詳しく見てみよう。 

一方では、Gemini Robotics-ERは、ゼロショットコード生成と少数ショットインコンテキスト学習(ICL)という2つの重要なメカニズムを活用している。ゼロショットコード生成では、モデルはタスク指示、画像、リアルタイムデータに基づいてロボットを制御するコードを作成することができ、追加のトレーニングを必要としない。 

同様に、数ショット学習では、モデルはわずか数例から学習することで新しいタスクに適応し、大規模なトレーニングの必要性を低減します。これらの方法を併用することで、ロボットは複雑なタスクを素早く実行し、最小限の労力で新しい課題に適応することができます。

一方、ジェミニ・ロボティクスはスピードと効率性を追求している。クラウドベースのバックボーンとオンボードのアクションデコーダーからなるハイブリッドシステムを採用している。クラウドベースのバックボーンは情報を素早く処理し、問い合わせから応答までの待ち時間は160ミリ秒以下だ。 

そして、オンボードのデコーダーがこのデータをリアルタイムのアクションに変換する。このシステムを組み合わせることで、全体の応答時間は約250ミリ秒、制御速度は毎秒50アクションを達成している。

図3.Gemini Roboticsがどのようにリアルタイムロボット制御をサポートしているかを理解する。

ジェミニ・ロボティクスの主な能力 

ジェミニ・ロボティクスの主な特徴を簡単に紹介しよう:

  • 汎用性:照明、背景、対象物の変化に適応しながら、正確さを保つことができる。また、言い換えや多言語のコマンドを理解し、さまざまな状況に合わせて動きを調整することができる。

  • 双方向性:このモデルは、さまざまな自然言語のコマンドを処理し、直感的に応答することができます。また、環境のリアルタイムな変化に基づいて行動を調整するため、人間とロボットのコラボレーションに理想的です。

  • 器用さ:このモデルを搭載したロボットは、折り紙を折ったり、繊細な物を扱ったりといった複雑で精密な作業を行うことができる。段階的なプロセスであれ、素早い動作であれ、このモデルは効率的な実行を助けることができる。
  • 複数の実施形態:バイ・アーム・システムやヒューマノイド・ロボットのような様々なロボット・プラットフォームで、微調整をほとんどすることなく動作します。高いパフォーマンスを維持しながら、新しいタスクに素早く適応します。
図4.Google 、さまざまなロボットプラットフォームで活躍する。

ジェミニ・ロボティクス - ERの主な機能

ここでは、ロボットが世界を理解し、世界と相互作用するためのGemini Robotics-ERの主な機能のいくつかを紹介する:

  • 物体検出とトラッキング:2Dと3Dの両方の空間における物体の識別と追跡に使用できる。自然言語によるクエリを使用することで、ロボットが物体を見つけ、種類、位置、機能などに基づいてその位置を予測するのに役立ちます。

  • ポインティング:この機能により、正確な座標を使って画像内の特定の物体や部分をピンポイントで特定することができる。ロボットが物体全体や物体の一部、あるいは何もない空間を見つけるのに役立ちます。
  • 把持予測:Gemini Robotics-ERは、物体の形状や機能に基づいて、最適な握り方を決定するために使用することができる。バナナであろうとカップの取っ手であろうと、握るべき場所を予測し、ロボットがアイテムを丁寧に扱うことを可能にする。

  • 軌道の推論:行動シーケンスを予測することで、移動経路を計画するために使用できる。例えば、ロボットのハンドをツールの方向に誘導したり、特定のタスクのためのウェイポイントを定義したりすることができ、ロボットが効率的にタスクを完了するのを助ける。

  • マルチビュー対応:この機能は、物体が異なる角度からどのように見えるかを比較することで、モデルが3D構造を理解するのに役立ちます。空間推論を強化するために使用でき、ロボットがダイナミックな環境でオブジェクトとよりうまく相互作用できるようにする。
図5.Gemini Robotics-ERは様々なタスクに対応できる。

Google Geminiロボティクスの応用モデル

Gemini RoboticsとGemini Robotics-ERの主な機能について説明したところで、様々な業界における実際のアプリケーションについて見ていこう。

Google 製造業に活用できる

製造業では、正確さとスピードが重要ですが、適応性こそがすべてをスムーズに動かすのです。例えば、Geminiを搭載した産業用ロボットは、適切なコンポーネントを識別し、それらを正しく配置し、柔軟なゴムバンドを正確な力で扱うことで、プーリーシステムを組み立てることができる。 

バンドを伸ばし、プーリーに巻きつけ、折れたりずれたりすることなく固定することができる。セットアップが変わったり、タスクが変わったりしても、ロボットは大規模な再プログラミングを必要とせずに適応することができます。このスマートな自動化は、エラーを減らし、効率を向上させ、製造工程を円滑に保ちます。

図6.双腕の産業用ロボットがゴムバンドをプーリーシステムに正確にはめ込む。

ジェミニ・ロボティクスが実現するスマートホーム

忙しいスケジュールの中で家事をこなすのは大変なことです。スマートロボットなら、掃除や食料品の仕分け、食事の支度などの仕事をこなし、日常生活をより簡単にすることができる。 

例えば、ロボットがランチバッグに弁当を詰めたり、果物や缶詰のような壊れやすいものを保護するためにグリップを調整しながら慎重に食材を選んで中に入れたりするようなことだ。配置が変わっても、ロボットは自分で適応することができ、最小限の監視で毎日の家事を楽にすることができる。

図7.慎重に弁当袋に詰めるヒューマノイドロボット。

ジェミニ・ロボティクスを活用するメリットとデメリット 

ジェミニ・ロボティクスは、精密な製造からスマートホームの支援まで、ロボットができることを広げています。ジェミニ・ロボティクスを様々な用途で使用する主な利点をご紹介します: 

  • 最低限の トレーニング が必要です:従来のロボットとは異なり、ジェミニロボティクス駆動ロボットは数回のデモンストレーションで学習することができるため、トレーニングコストを削減し、配備を容易にする。

  • 安全性の向上:
    ‍ 危険な環境において、Gemini Roboticsと統合されたロボットは危険な作業を行うことができ、人間の作業員が負傷するリスクを低減する。
  • カスタマイズ可能な機能: ジェミニロボティクスの柔軟性は、異なる業界や個々の企業の特定のニーズに合わせてカスタマイズできることを意味し、特殊なアプリケーションや独自のソリューションを可能にする。

ジェミニ・ロボティクスにはいくつかの利点があるが、次のような制限に対処することも重要である:

  • 空間的関係の課題
    ‍ このようなモデルは、長いビデオ・シーケンスにわたって空間的な関係を追跡し続けることが困難な場合があり、これは時間経過とともに物体を追跡し理解する能力に影響する。
  • 数値精度の欠如:ポイントやバウンディングボックスのようなモデルの予測は、繊細なロボッ ト作業のような微細な制御を必要とする作業には十分な精度が得られない可能性がある。
  • 複雑なタスク:ジェミニ・ロボティクスは、特に新しい状況や不慣れな状況において、多段階の推論や正確な動作を必要とする複雑なタスクの処理に苦戦する可能性がある。 

ロボット工学におけるAIの未来

AIが進歩し続ける中、ジェミニ・ロボティクスやジェミニ・ロボティクス-ERのようなモデルがロボット工学の未来を牽引している。今後の改良は、ロボットがタスクを論理的なステップに分割し、より精度を高めることを可能にする、マルチステップ推論の強化に焦点が当てられるだろう。

Google 取り組む予定のもうひとつの重要な開発分野は、シミュレーションベースのトレーニングだ。実世界に配備する前に仮想環境で学習することで、ロボットは意思決定や動作を洗練させることができ、実用化におけるエラーを最小限に抑えることができる。

これらの技術が進化すれば、ロボットがより自律的で適応力があり、日常生活で人間とともにシームレスに働くことができる未来への道が開けるかもしれない。

要点

ジェミニ・ロボティクスは、デジタル・インテリジェンスと現実世界の物理的タスクを結びつける、AI主導のオートメーションにおける大きな前進である。視覚、言語、行動ベースの学習を組み合わせることで、これらのロボットは複雑なタスクを正確かつ適応性高く処理することができる。 

ロボットがより賢くなるにつれ、ロボットは日常生活でより大きな役割を果たすようになり、人間と機械が共に働く方法を変えていくだろう。この進歩は、AI主導の自動化が産業と日常業務の両方を強化する、インテリジェントでよりつながりの深い世界に私たちを近づけている。

成長し続けるコミュニティの一員になりませんか!GitHub リポジトリを訪れて、AI をより深く掘り下げましょう。独自のコンピュータビジョンプロジェクトを始めたいですか?ライセンスオプションをご覧ください。製造業におけるAIと 自動車産業におけるビジョンAIについては、ソリューションのページをご覧ください!

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう