Contrôle vert
Lien copié dans le presse-papiers

Les modèles de Google Gemini Robotics alimentent des robots plus intelligents

Explore comment Google Gemini Robotics améliore les robots alimentés par l'IA avec une intelligence multimodale, stimulant l'adaptabilité, la dextérité et l'interaction humaine transparente.

Pendant des décennies, les robots ont symbolisé l'avenir, apparaissant dans les laboratoires de recherche, les films de science-fiction et les vitrines de prototypes industriels de pointe. Aujourd'hui, grâce aux récents progrès de l'intelligence artificielle (IA), ces prototypes sortent des environnements contrôlés pour trouver des applications dans le monde réel. 

Plus précisément, avec Gemini Robotics, Google se rapproche de la technologie nécessaire pour construire des robots plus intelligents. Lancés le 12 mars 2025, le modèle Gemini Robotics et son modèle compagnon, Gemini Robotics-ER (Embodied Reasoning), sont les dernières innovations de Google DeepMind. 

Ils s'appuient sur Gemini 2.0, un grand modèle de langage (LLM) multimodal qui peut traiter et générer divers types de données, y compris du texte, des images, du son et de la vidéo, facilitant ainsi des interactions plus polyvalentes et plus naturelles. Ces modèles transposent les capacités multimodales de Gemini 2.0 dans le monde physique, ce qui permet de créer des robots plus dextres, plus interactifs et plus intelligents.

Par exemple, contrairement aux robots traditionnels qui suivent des instructions fixes, les robots intégrés aux modèles de Gemini Robotics peuvent traiter la vision et le langage. Ils peuvent ainsi prendre des décisions en temps réel et s'adapter à des environnements changeants.

Dans cet article, nous allons explorer Gemini Robotics et Gemini Robotics-ER, le fonctionnement de ces modèles, ainsi que leurs principales caractéristiques et applications. C'est parti !

Fig 1. Gemini Robotics aide les robots à accomplir efficacement de multiples tâches.

Présentation de Google Gemini Robotics

Gemini Robotics de Googleest un modèle d'IA avancé conçu pour donner aux robots la capacité de percevoir, de raisonner et d'interagir dans le monde physique. En tant que modèle vision-langage-action (VLA), il permet aux robots de traiter des instructions, d'interpréter leur environnement et d'exécuter des tâches complexes avec une grande précision.

Parallèlement, le modèle Gemini Robotics-ER améliore la capacité d'un robot à comprendre les relations spatiales de la façon dont les objets sont positionnés, comment ils se déplacent et comment ils interagissent. Cela aide les robots à anticiper les actions et à ajuster leurs mouvements en conséquence. 

Par exemple, considère une tâche où un robot doit enrouler un fil autour d'un casque. Gemini Robotics-ER l'aide à comprendre la scène, à reconnaître la forme et la flexibilité du fil, à identifier la structure de l'écouteur et à prédire comment le fil se pliera lors de ses mouvements. Ensuite, Gemini Robotics traduit cette compréhension en action, en coordonnant les deux mains pour manipuler le fil en douceur, en ajustant sa prise pour éviter qu'il ne s'emmêle et en assurant un enroulement sûr.

En combinant la perception et l'action, Gemini Robotics et Gemini Robotics-ER créent un système intelligent qui permet aux robots d'effectuer efficacement des tâches dextres dans des environnements dynamiques.

Fig 2. Vue d'ensemble de la famille de modèles Gemini Robotics.

L'IA dans la robotique : Explore le fonctionnement de Gemini Robotics

Ensuite, examinons de plus près chaque modèle pour mieux comprendre comment Gemini Robotics et Gemini Robotics-ER travaillent ensemble pour trouver un équilibre entre flexibilité et rapidité d'action. 

D'une part, Gemini Robotics-ER s'appuie sur deux mécanismes clés : la génération de code à partir de zéro et l'apprentissage en contexte (ICL) à partir de peu d'images. Avec la génération de code zéro-shot, le modèle peut créer du code pour contrôler le robot en fonction des instructions de la tâche, des images et des données en temps réel sans nécessiter de formation supplémentaire. 

De la même façon, avec l'apprentissage à partir de quelques exemples, le modèle s'adapte à de nouvelles tâches en apprenant à partir de quelques exemples seulement, ce qui réduit la nécessité d'un entraînement approfondi. Ensemble, ces méthodes permettent au robot d'effectuer rapidement des tâches complexes et de s'adapter à de nouveaux défis avec un minimum d'efforts.

Gemini Robotics, quant à lui, est construit pour la vitesse et l'efficacité. Il utilise un système hybride composé d'un backbone basé sur le cloud et d'un décodeur d'action embarqué. L'épine dorsale basée sur le cloud traite les informations rapidement, avec une latence requête-réponse inférieure à 160 millisecondes. 

Ensuite, le décodeur embarqué aide à traduire ces données en actions en temps réel. Ce système combiné permet d'obtenir un temps de réponse global d'environ 250 millisecondes, avec une vitesse de contrôle de 50 actions par seconde.

Fig 3. Comprendre comment Gemini Robotics prend en charge le contrôle des robots en temps réel.

Principales capacités de Gemini Robotics 

Voici un aperçu rapide des principales caractéristiques de Gemini Robotics :

  • Généralité: Il peut s'adapter aux changements d'éclairage, d'arrière-plan et d'objets tout en restant précis. Il comprend également les commandes paraphrasées ou multilingues et peut ajuster les mouvements en fonction des différentes conditions.

  • Interactivité: Ce modèle peut traiter un large éventail de commandes en langage naturel et y répondre de façon intuitive. Il ajuste également ses actions en fonction des changements en temps réel de l'environnement, ce qui le rend idéal pour la collaboration homme-robot.

  • Dextérité: Un robot alimenté par ce modèle peut effectuer des tâches complexes et précises, comme plier des origamis ou manipuler des objets délicats. Qu'il s'agisse d'un processus étape par étape ou d'actions rapides, le modèle peut aider à les exécuter efficacement.
  • Plusieurs réalisations: Il fonctionne sur diverses plateformes robotiques, comme les systèmes à deux bras et les robots humanoïdes, avec peu de réglages fins. Il s'adapte rapidement à de nouvelles tâches tout en maintenant des performances élevées.
Fig 4. Google Gemini Robotics travaille sur différentes plateformes robotiques.

Principales capacités de Gemini Robotics - ER

Voici un aperçu des principales caractéristiques de Gemini Robotics-ER qui aident les robots à comprendre le monde et à interagir avec lui :

  • Détection et suivi d'objets et le suivi : Il peut être utilisé pour identifier et suivre des objets dans des espaces 2D et 3D. En utilisant des requêtes en langage naturel, il aide les robots à trouver des objets et à prédire leur position, que ce soit en fonction du type, de l'emplacement ou de la fonction.

  • Pointer: Cette fonction permet au modèle de pointer des objets ou des parties spécifiques dans une image à l'aide de coordonnées précises. Elle peut être utilisée pour aider les robots à localiser des objets entiers, des parties d'objets ou même des espaces vides.
  • Prédiction de préhension: Gemini Robotics-ER peut être utilisé pour déterminer la meilleure façon de saisir les objets en fonction de leur forme et de leur fonction. Il prédit où saisir, qu'il s'agisse d'une banane ou de la poignée d'une tasse, ce qui permet aux robots de manipuler les objets avec soin.

  • Raisonnement par trajectoire: Le modèle peut être utilisé pour planifier des trajectoires de déplacement en prédisant des séquences d'actions. Par exemple, il peut guider une main de robot vers un outil ou définir des points de passage pour une tâche spécifique, ce qui aide le robot à accomplir ses tâches efficacement.

  • Correspondance multi-vues: Cette fonction aide le modèle à comprendre les structures 3D en comparant la façon dont les objets apparaissent sous différents angles. Elle peut être utilisée pour améliorer le raisonnement spatial, ce qui permet aux robots de mieux interagir avec les objets dans les environnements dynamiques.
Fig 5. Gemini Robotics-ER peut effectuer une grande variété de tâches.

Applications des modèles de Google Gemini Robotics

Maintenant que nous avons discuté des principales capacités de Gemini Robotics et de Gemini Robotics-ER, plongeons-nous dans leurs applications réelles dans diverses industries.

Google Gemini Robotics peut être utilisé dans la fabrication

Lorsqu'il s'agit de fabrication, la précision et la vitesse sont importantes, mais la capacité d'adaptation est ce qui permet vraiment à tout de bien fonctionner. Par exemple, un robot industriel alimenté par Gemini peut assembler un système de poulie en identifiant les bons composants, en les positionnant correctement et en manipulant un élastique flexible avec une force précise. 

Il peut étirer la bande, l'enrouler autour des poulies et la fixer sans la casser ou la désaligner. Si la configuration change ou si la tâche varie, le robot peut s'adapter sans avoir besoin d'une reprogrammation importante. Cette automatisation intelligente réduit les erreurs, améliore l'efficacité et assure le bon déroulement des processus de fabrication.

Fig 6. Un robot industriel à deux bras ajuste avec précision un élastique sur un système de poulies.

Les maisons intelligentes rendues possibles par Gemini Robotics

Les emplois du temps chargés peuvent rendre difficile le suivi des tâches ménagères. Les robots intelligents peuvent intervenir pour s'occuper de tâches telles que le nettoyage, le tri des courses et même aider à la préparation des repas, ce qui facilite la vie quotidienne

Cela peut ressembler à un robot qui prépare un sac à lunch, sélectionne et place soigneusement les aliments à l'intérieur tout en ajustant sa prise pour protéger les objets fragiles comme les fruits ou les boîtes de conserve. Même si la disposition change, le robot peut s'adapter de lui-même, facilitant ainsi les tâches quotidiennes avec une supervision minimale.

Fig 7. Un robot humanoïde emballe soigneusement un sac à lunch.

Avantages et inconvénients de l'utilisation de Gemini Robotics 

Gemini Robotics élargit ce que les robots peuvent faire, de la fabrication précise à l'assistance domestique intelligente. Voici quelques avantages clés de l'utilisation de Gemini Robotics dans diverses applications : 

  • Formation formation nécessaires: Contrairement aux robots traditionnels, les robots pilotés par Gemini Robotics peuvent apprendre à partir de quelques démonstrations, ce qui réduit les coûts de formation et facilite leur déploiement.

  • Sécurité renforcée : Dans les environnements dangereux, les robots intégrés à Gemini Robotics peuvent effectuer des tâches dangereuses, ce qui réduit le risque de blessure pour les travailleurs humains.
  • Caractéristiques personnalisables : La flexibilité de Gemini Robotics signifie qu'il peut être adapté pour répondre aux besoins spécifiques des différentes industries ou des entreprises individuelles, ce qui permet de créer des applications spécialisées et des solutions uniques.

Bien que Gemini Robotics offre plusieurs avantages, il est également important de tenir compte des limites suivantes :

  • Difficultés liées aux relations spatiales: Ces modèles peuvent avoir des difficultés à suivre les relations spatiales sur de longues séquences vidéo, ce qui affecte leur capacité à suivre et à comprendre les objets au fil du temps.
  • Manque de précision numérique : Les prédictions du modèle, comme les points et les boîtes englobantes, peuvent ne pas être assez précises pour les tâches qui nécessitent un contrôle fin, comme les tâches robotiques délicates.
  • Tâches complexes: Gemini Robotics peut avoir du mal à gérer des tâches complexes qui nécessitent un raisonnement en plusieurs étapes et des mouvements précis, en particulier dans des situations nouvelles ou peu familières. 

L'avenir de l'IA dans la robotique

Alors que l'IA continue de progresser, des modèles comme Gemini Robotics et Gemini Robotics-ER sont à l'origine de l'avenir de la robotique. Les améliorations futures se concentreront probablement sur l'amélioration du raisonnement en plusieurs étapes, permettant aux robots de décomposer les tâches en étapes logiques pour une plus grande précision.

Un autre domaine de développement clé sur lequel Google DeepMind prévoit de travailler est la formation basée sur la simulation. En apprenant dans des environnements virtuels avant le déploiement dans le monde réel, les robots peuvent affiner leur prise de décision et leurs mouvements, ce qui minimise les erreurs dans les applications pratiques.

À mesure que ces technologies évoluent, elles pourraient ouvrir la voie à un avenir où les robots seront plus autonomes, plus adaptables et capables de travailler en toute transparence aux côtés des humains dans la vie de tous les jours.

Principaux enseignements

Gemini Robotics fait un grand pas en avant dans l'automatisation pilotée par l'IA, en connectant l'intelligence numérique aux tâches physiques du monde réel. En combinant la vision, le langage et l'apprentissage par l'action, ces robots peuvent gérer des tâches complexes avec précision et adaptabilité. 

À mesure que les robots continuent de devenir plus intelligents, ils joueront probablement un rôle plus important dans la vie quotidienne, modifiant la façon dont les humains et les machines travaillent ensemble. Ces progrès nous rapprochent d'un monde intelligent et plus connecté, où l'automatisation pilotée par l'IA améliore à la fois les industries et les tâches quotidiennes.

Fais partie de notre communauté grandissante ! Visite notre dépôt GitHub pour plonger plus profondément dans l'IA. Tu cherches à lancer tes propres projets de vision par ordinateur ? Jette un coup d'œil à nos options de licence. Apprends-en plus sur l'IA dans la fabrication et l'IA de vision dans l' industrie automobile sur nos pages de solutions !

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.