Cheque verde
Enlace copiado en el portapapeles

Los modelos de Google Gemini Robotics están impulsando robots más inteligentes

Explora cómo Google Gemini Robotics mejora los robots impulsados por IA con inteligencia multimodal, potenciando la adaptabilidad, la destreza y la interacción humana sin fisuras.

Durante décadas, los robots han simbolizado el futuro, apareciendo en laboratorios de investigación, películas de ciencia ficción y escaparates de prototipos de la industria de vanguardia. Ahora, gracias a los recientes avances en inteligencia artificial (IA), estos prototipos están pasando de los entornos controlados a las aplicaciones en el mundo real. 

En concreto, con Gemini Robotics, Google está dando un paso más hacia la tecnología necesaria para construir robots más inteligentes. Lanzados el 12 de marzo de 2025, el modelo Gemini Robotics y su modelo complementario, Gemini Robotics-ER (Embodied Reasoning), son las últimas innovaciones de Google DeepMind. 

Se basan en Gemini 2.0, un Modelo de Gran Lenguaje (LLM) multimodal que puede procesar y generar varios tipos de datos, como texto, imágenes, audio y vídeo, facilitando interacciones más versátiles y naturales. Estos modelos llevan las capacidades multimodales de Gemini 2.0 al mundo físico, permitiendo robots más diestros, interactivos e inteligentes.

Por ejemplo, a diferencia de los robots tradicionales que siguen instrucciones fijas, los robots integrados con los modelos de Gemini Robotics pueden procesar la visión y el lenguaje. Esto les permite tomar decisiones en tiempo real y adaptarse a entornos cambiantes.

En este artículo, exploraremos Gemini Robotics y Gemini Robotics-ER, cómo funcionan estos modelos y sus principales características y aplicaciones. ¡Empecemos ya!

Fig. 1. Gemini Robotics ayuda a los robots a realizar múltiples tareas con eficacia.

Presentamos Google Gemini Robotics

Gemini Robotics de Googlees un modelo avanzado de IA diseñado para dotar a los robots de la capacidad de percibir, razonar e interactuar en el mundo físico. Como modelo de visión-lenguaje-acción (VLA), permite a los robots procesar instrucciones, interpretar su entorno y ejecutar tareas complejas con gran precisión.

Mientras tanto, el modelo Gemini Robotics-ER mejora la capacidad de un robot para comprender las relaciones espaciales de cómo están colocados los objetos, cómo se mueven y cómo interactúan. Esto ayuda a los robots a anticiparse a las acciones y ajustar sus movimientos en consecuencia. 

Por ejemplo, considera una tarea en la que un robot tiene que enrollar un cable alrededor de unos auriculares. Gemini Robotics-ER le ayuda a comprender la escena, reconocer la forma y flexibilidad del cable, identificar la estructura del auricular y predecir cómo se doblará el cable al moverse. A continuación, Gemini Robotics traduce esta comprensión en acción, coordinando ambas manos para manipular el cable con suavidad, ajustando su agarre para evitar enredos y garantizando una envoltura segura.

Combinando la percepción con la acción, Gemini Robotics y Gemini Robotics-ER crean un sistema inteligente que permite a los robots realizar tareas de destreza con eficacia en entornos dinámicos.

Figura 2. Visión general de la familia de modelos de Gemini Robotics.

La IA en la robótica: Explorando cómo funciona Gemini Robotics

A continuación, veamos más de cerca cada modelo para comprender mejor cómo Gemini Robotics y Gemini Robotics-ER trabajan juntos para equilibrar la flexibilidad y las acciones rápidas. 

Por un lado, Gemini Robotics-ER aprovecha dos mecanismos clave: la generación de código de disparo cero y el aprendizaje en contexto (ICL) de pocos disparos. Con la generación de código sin disparos, el modelo puede crear código para controlar el robot basándose en instrucciones de tareas, imágenes y datos en tiempo real, sin necesidad de entrenamiento adicional. 

Del mismo modo, con el aprendizaje de pocos disparos, el modelo se adapta a nuevas tareas aprendiendo de unos pocos ejemplos, lo que reduce la necesidad de un entrenamiento exhaustivo. Juntos, estos métodos permiten al robot realizar tareas complejas con rapidez y adaptarse a nuevos retos con el mínimo esfuerzo.

Gemini Robotics, por su parte, está diseñado para ser rápido y eficaz. Utiliza un sistema híbrido formado por una red troncal basada en la nube y un descodificador de acciones integrado. La red troncal basada en la nube procesa la información rápidamente, con una latencia de consulta a respuesta inferior a 160 milisegundos. 

Después, el descodificador de a bordo ayuda a traducir estos datos en acciones en tiempo real. Este sistema combinado consigue un tiempo de respuesta global de aproximadamente 250 milisegundos, con una velocidad de control de 50 acciones por segundo.

Fig. 3. Comprender cómo Gemini Robotics soporta el control del robot en tiempo real.

Capacidades clave de Gemini Robotics 

He aquí un rápido vistazo a las principales características de Gemini Robotics:

  • Generalidad: Puede adaptarse a los cambios de iluminación, fondos y objetos sin perder precisión. También entiende órdenes parafraseadas o multilingües y puede ajustar los movimientos a diferentes condiciones.

  • Interactividad: Este modelo puede procesar una amplia gama de órdenes en lenguaje natural y responder intuitivamente. También ajusta sus acciones en función de los cambios del entorno en tiempo real, lo que lo hace ideal para la colaboración entre humanos y robots.

  • Destreza: Un robot impulsado por este modelo puede realizar tareas complejas y precisas, como plegar papiroflexia o manipular objetos delicados. Tanto si se trata de un proceso paso a paso como de acciones rápidas, el modelo puede ayudar a ejecutarlas con eficacia.
  • Múltiples encarnaciones: Funciona en varias plataformas robóticas, como sistemas de dos brazos y robots humanoides, con pocos ajustes. Se adapta rápidamente a nuevas tareas manteniendo un alto rendimiento.
Fig. 4. Google Gemini Robotics trabaja en varias plataformas robóticas.

Capacidades clave de Gemini Robotics - ER

He aquí algunas de las características clave de Gemini Robotics-ER que ayudan a los robots a comprender el mundo e interactuar con él:

  • Detección de objetos y seguimiento: Puede utilizarse para identificar y seguir objetos tanto en espacios 2D como 3D. Mediante consultas en lenguaje natural, ayuda a los robots a encontrar objetos y predecir su posición, ya sea por su tipo, ubicación o función.

  • Señalar: Esta función permite al modelo señalar objetos o partes concretas dentro de una imagen utilizando coordenadas precisas. Puede utilizarse para ayudar a los robots a localizar objetos enteros, partes de objetos o incluso espacios vacíos.
  • Predicción de agarre: Gemini Robotics-ER puede utilizarse para determinar la mejor forma de agarrar objetos basándose en su forma y función. Predice dónde agarrar, ya sea un plátano o el asa de una taza, lo que permite a los robots manipular los objetos con cuidado.

  • Razonamiento de trayectorias: El modelo puede utilizarse para planificar trayectorias de movimiento mediante la predicción de secuencias de acciones. Por ejemplo, puede guiar la mano de un robot hacia una herramienta o definir puntos de ruta para una tarea concreta, ayudando al robot a completar las tareas con eficacia.

  • Correspondencia multivista: Esta característica ayuda al modelo a comprender las estructuras 3D comparando cómo aparecen los objetos desde distintos ángulos. Puede utilizarse para mejorar el razonamiento espacial, permitiendo a los robots interactuar mejor con los objetos en entornos dinámicos.
Fig. 5. Gemini Robotics-ER puede realizar diversas tareas.

Aplicaciones de los modelos Google Gemini Robotics

Ahora que hemos hablado de las capacidades clave de Gemini Robotics y Gemini Robotics-ER, vamos a sumergirnos en sus aplicaciones reales en diversos sectores.

Google Gemini Robotics puede utilizarse en la fabricación

Cuando se trata de fabricación, la precisión y la velocidad son importantes, pero la adaptabilidad es lo que realmente hace que todo funcione sin problemas. Por ejemplo, un robot industrial accionado por Gemini puede montar un sistema de poleas identificando los componentes adecuados, colocándolos correctamente y manipulando una banda elástica flexible con una fuerza precisa. 

Puede estirar la banda, enrollarla alrededor de las poleas y fijarla sin que se rompa ni se desalinee. Si cambia la configuración o varía la tarea, el robot puede adaptarse sin necesidad de una reprogramación exhaustiva. Esta automatización inteligente reduce los errores, mejora la eficacia y mantiene el buen funcionamiento de los procesos de fabricación.

Fig. 6. Un robot industrial de dos brazos ajusta con precisión una goma elástica a un sistema de poleas.

Hogares inteligentes habilitados por Gemini Robotics

Las agendas apretadas pueden dificultar las tareas domésticas. Los robots inteligentes pueden encargarse de tareas como limpiar, clasificar la compra e incluso ayudar a preparar la comida, facilitando así la vida diaria

Podría ser un robot que empaqueta una bolsa de comida, seleccionando y colocando cuidadosamente los alimentos en su interior mientras ajusta su agarre para proteger los objetos frágiles, como la fruta o las latas. Incluso si cambia la disposición, el robot puede adaptarse por sí solo, facilitando las tareas diarias con una supervisión mínima.

Fig. 7. Un robot humanoide empaquetando cuidadosamente una bolsa de almuerzo.

Pros y contras de aprovechar Gemini Robotics 

Gemini Robotics está ampliando lo que pueden hacer los robots, desde la fabricación precisa a la asistencia doméstica inteligente. Estas son algunas de las principales ventajas de utilizar Gemini Robotics en diversas aplicaciones: 

  • Mínimo formación requisitos: A diferencia de los robots tradicionales, los robots impulsados por Gemini Robotics pueden aprender a partir de unas pocas demostraciones, lo que reduce los costes de formación y facilita su despliegue.

  • Mayor seguridad: En entornos peligrosos, los robots integrados con Gemini Robotics pueden realizar tareas peligrosas, reduciendo el riesgo de lesiones para los trabajadores humanos.
  • Funciones personalizables: La flexibilidad de Gemini Robotics significa que puede adaptarse para satisfacer las necesidades específicas de diferentes industrias o empresas individuales, permitiendo aplicaciones especializadas y soluciones únicas.

Aunque Gemini Robotics ofrece varias ventajas, también es importante tener en cuenta las siguientes limitaciones:

  • Desafíos en las relaciones espaciales: Estos modelos pueden tener dificultades para seguir las relaciones espaciales en secuencias de vídeo largas, lo que afecta a su capacidad para seguir y comprender objetos a lo largo del tiempo.
  • Falta de precisión numérica: Las predicciones del modelo, como puntos y cuadros delimitadores, pueden no ser lo suficientemente precisas para tareas que requieren un control fino, como las tareas robóticas delicadas.
  • Tareas complejas: La Robótica Géminis puede tener dificultades para manejar tareas complejas que requieran razonamientos de varios pasos y movimientos precisos, especialmente en situaciones nuevas o desconocidas. 

El futuro de la IA en la robótica

A medida que la IA sigue avanzando, modelos como Gemini Robotics y Gemini Robotics-ER están impulsando el futuro de la robótica. Las mejoras futuras se centrarán probablemente en potenciar el razonamiento multipaso, permitiendo a los robots dividir las tareas en pasos lógicos para una mayor precisión.

Otra área clave de desarrollo en la que Google DeepMind tiene previsto trabajar es el entrenamiento basado en la simulación. Aprendiendo en entornos virtuales antes de su despliegue en el mundo real, los robots pueden perfeccionar su toma de decisiones y sus movimientos, minimizando los errores en las aplicaciones prácticas.

A medida que estas tecnologías evolucionen, podrían allanar el camino hacia un futuro en el que los robots sean más autónomos, adaptables y capaces de trabajar sin problemas junto a los humanos en la vida cotidiana.

Puntos clave

Gemini Robotics es un gran paso adelante en la automatización impulsada por la IA, que conecta la inteligencia digital con las tareas físicas del mundo real. Combinando visión, lenguaje y aprendizaje basado en la acción, estos robots pueden realizar tareas complejas con precisión y adaptabilidad. 

A medida que los robots sigan haciéndose más inteligentes, es probable que desempeñen un papel más importante en la vida cotidiana, cambiando la forma en que los humanos y las máquinas trabajan juntos. Este progreso nos está acercando a un mundo inteligente y más conectado, donde la automatización impulsada por la IA mejora tanto las industrias como las tareas cotidianas.

¡Forma parte de nuestra creciente comunidad! Visita nuestro repositorio GitHub para profundizar en la IA. ¿Quieres iniciar tus propios proyectos de visión por ordenador? Echa un vistazo a nuestras opciones de licencia. Obtén más información sobre la IA en la fabricación y la IA de visión en la industria del automóvil en nuestras páginas de soluciones.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático