绿色检查
链接复制到剪贴板

Google 双子座机器人模型为更智能的机器人提供动力

探索Google 双子座机器人如何利用多模态智能增强人工智能驱动的机器人,提高其适应性、灵巧性和无缝人机交互能力。

几十年来,机器人一直象征着未来,出现在研究实验室、科幻电影和尖端工业原型展示中。现在,得益于人工智能(AI)的最新进展,这些原型机器人正在走出受控环境,进入现实应用领域。 

具体来说,通过双子座机器人技术,Google 离制造更智能机器人所需的技术更近了一步。双子座机器人模型及其配套模型双子座机器人-ER(嵌入式推理)于2025年3月12日推出,是Google DeepMind的最新创新成果。 

它们建立在Gemini 2.0 的基础上,Gemini 2.0 是一种多模态大语言模型(LLM),可以处理和生成各种类型的数据,包括文本、图像、音频和视频,从而促进更多功能和更自然的交互。这些模型将 Gemini 2.0 的多模态功能带入物理世界,使机器人更加灵巧、互动和智能。

例如,与遵循固定指令的传统机器人不同,集成了 Gemini Robotics 模型的机器人可以处理视觉和语言。这使得它们能够做出实时决策,并适应不断变化的环境。

在本文中,我们将探讨 Gemini Robotics 和 Gemini Robotics-ER、这些型号的工作原理及其主要功能和应用。让我们开始吧!

图 1.双子座机器人技术公司帮助机器人高效地执行多项任务。

Google 双子座机器人介绍

Google的双子座机器人技术(Gemini Robotics)是一种先进的人工智能模型,旨在赋予机器人在物理世界中感知、推理和互动的能力。作为一种视觉-语言-行动(VLA)模型,它能让机器人处理指令、解释环境并高精度地执行复杂任务。

同时,Gemini Robotics-ER 模型提高了机器人理解空间关系的能力,包括物体如何定位、如何移动以及如何互动。这有助于机器人预测行动,并相应地调整自己的动作。 

例如,机器人需要将电线缠绕在耳机上。Gemini Robotics-ER 可以帮助它理解场景,识别电线的形状和柔韧性,识别耳机的结构,并预测电线在移动过程中会如何弯曲。然后,Gemini Robotics 将这种理解转化为行动,协调双手平稳地操纵电线,调整抓握方式以避免缠绕,并确保安全缠绕。

通过将感知与行动相结合,Gemini Robotics 和 Gemini Robotics-ER 创造出一种智能系统,使机器人能够在动态环境中高效地执行灵巧的任务。

图 2.双子座机器人模型系列概览。

机器人中的人工智能探索双子座机器人如何工作

接下来,让我们仔细观察每种型号,以便更好地了解 Gemini Robotics 和 Gemini Robotics-ER 如何协同工作,在灵活性和快速行动之间取得平衡。 

一方面,Gemini Robotics-ER 利用了两个关键机制:零次代码生成和少量上下文学习 (ICL)。通过零次代码生成,模型可以根据任务指令、图像和实时数据创建代码来控制机器人,而无需额外的训练。 

同样,通过"少量学习",模型只需从少量示例中学习,就能适应新任务,从而减少了大量训练的需要。这些方法结合在一起,能让机器人快速执行复杂任务,并以最小的代价适应新的挑战。

而双子座机器人公司(Gemini Robotics)则追求速度和效率。它采用混合系统,由基于云的骨干网和板载动作解码器组成。基于云的骨干网能快速处理信息,查询到响应的延迟时间低于 160 毫秒。 

然后,机载解码器帮助将这些数据转化为实时动作。这一组合系统的总体响应时间约为 250 毫秒,控制速度为每秒 50 次。

图 3.了解 Gemini Robotics 如何支持实时机器人控制。

双子座机器人公司的主要能力 

以下是 Gemini Robotics 的主要功能简介:

  • 通用性:它能适应光线、背景和物体的变化,同时保持准确。它还能理解意译或多语种指令,并能根据不同情况调整动作。

  • 交互性:该模型可以处理各种自然语言指令,并做出直观的反应。它还能根据环境的实时变化调整自己的行动,是人机协作的理想选择。

  • 灵活性:由该模型驱动的机器人可以执行复杂、精确的任务,如折纸或处理易碎物品。无论是循序渐进还是快速操作,该模型都能帮助高效执行。
  • 多种实现方式:它适用于各种机器人平台,如双臂系统和仿人机器人,几乎无需微调。它能快速适应新任务,同时保持高性能。
图 4.Google 双子座机器人公司在各种机器人平台上开展工作。

双子座机器人公司的主要能力 - ER

以下是 Gemini Robotics-ER 的一些关键功能,它们有助于机器人理解世界并与世界互动:

  • 物体检测和跟踪:它可用于识别和跟踪二维和三维空间中的物体。通过使用自然语言查询,它可以帮助机器人根据类型、位置或功能找到物体并预测其位置。

  • 指向:该功能允许模型使用精确坐标在图像中精确定位特定物体或部分。它可用于帮助机器人定位整个物体、部分物体,甚至是空白空间。
  • 抓握预测:Gemini Robotics-ER 可以根据物体的形状和功能,确定抓取物体的最佳方式。无论是香蕉还是杯子把手,它都能预测抓取位置,使机器人能够小心翼翼地处理物品。

  • 轨迹推理:该模型可通过预测动作序列来规划运动路径。例如,它可以引导机器人的手走向工具,或为特定任务定义航点,帮助机器人高效完成任务。

  • 多视角对应:该功能通过比较物体在不同角度的外观,帮助模型理解三维结构。它可用于增强空间推理能力,让机器人在动态环境中更好地与物体互动。
图 5.双子座机器人-ER 可以处理各种任务。

Google 双子座机器人模型的应用

在讨论了 Gemini Robotics 和 Gemini Robotics-ER 的主要功能之后,让我们深入了解它们在各行各业的实际应用。

Google 双子座机器人可用于制造业

制造业中,精度和速度固然重要,但适应能力才是一切顺利运行的关键。例如,一台由 Gemini 驱动的工业机器人可以通过识别正确的部件、正确定位以及精确用力处理柔性橡皮筋来组装滑轮系统。 

它可以拉伸带子,将其绕在滑轮上,并将其固定,而不会断裂或错位。如果设置发生变化或任务不同,机器人也能适应,无需进行大量的重新编程。这种智能自动化减少了错误,提高了效率,使生产流程顺利进行。

图 6.双臂工业机器人将橡皮筋精确地套在滑轮系统上。

双子座机器人技术实现的智能家居

繁忙的日程安排可能会让处理家务变得困难重重。智能机器人可以介入处理清洁、杂货分类甚至帮助准备饭菜等任务,让日常生活变得更轻松。 

这可能就像一个机器人在打包午餐包,仔细挑选并将食物放入其中,同时调整其抓地力以保护水果或罐头等易碎物品。即使安排发生变化,机器人也能自行适应,只需极少的监督就能轻松完成日常琐事。

图 7.人形机器人小心翼翼地打包午餐袋。

利用双子座机器人技术的利弊 

从精密制造到智能家居辅助,Gemini Robotics 正在扩展机器人的功能。以下是在各种应用中使用 Gemini Robotics 的一些主要优势: 

  • 最低限度的 培训 要求:与传统机器人不同,Gemini Robotics 驱动的机器人只需通过几次演示就能学会,从而降低了培训成本,使其更易于部署。

  • 增强安全性:
  • 可定制功能: Gemini Robotics 的灵活性意味着它可以量身定制,以满足不同行业或个体企业的特定需求,从而实现专业化应用和独特的解决方案。

虽然双子座机器人技术具有多种优势,但也必须正视以下局限性:

  • 空间关系挑战
  • 数值精度不够:
  • 复杂任务:双子座机器人可能难以处理需要多步推理和精确动作的复杂任务,尤其是在新的或不熟悉的情况下。 

人工智能在机器人领域的未来

随着人工智能的不断进步,像双子座机器人公司(Gemini Robotics)和双子座机器人-ER 这样的模型正在推动机器人技术的未来发展。未来的改进可能会集中在加强多步骤推理上,使机器人能够将任务分解成逻辑步骤,从而提高精确度。

Google DeepMind 计划开发的另一个关键领域是模拟训练。通过在实际部署前在虚拟环境中学习,机器人可以完善自己的决策和动作,最大限度地减少实际应用中的失误。

随着这些技术的发展,未来的机器人将更加自主、适应性更强,并能在日常生活中与人类无缝协作。

主要收获

双子座机器人公司(Gemini Robotics)在人工智能驱动的自动化领域迈出了一大步,将数字智能与现实世界中的物理任务相结合。通过将视觉、语言和基于行动的学习相结合,这些机器人可以精准、适应性强地处理复杂的任务。 

随着机器人不断变得更加智能,它们可能会在日常生活中发挥更大的作用,改变人类和机器的合作方式。这一进步让我们更接近一个智能化、互联性更强的世界,在这个世界里,人工智能驱动的自动化将提升各行各业和日常工作的水平。

成为我们不断壮大的社区的一员!访问我们的GitHub 存储库,深入了解人工智能。想开始自己的计算机视觉项目?了解我们的许可选项。在我们的解决方案页面了解更多有关制造业人工智能汽车行业视觉人工智能的信息!

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅