Verificação verde
Link copiado para a área de transferência

Os modelos Gemini Robotics Google estão a alimentar robôs mais inteligentes

Explora a forma como Google Gemini Robotics melhora os robôs alimentados por IA com inteligência multimodal, aumentando a adaptabilidade, a destreza e a interação humana sem falhas.

Durante décadas, os robôs simbolizaram o futuro, aparecendo em laboratórios de investigação, filmes de ficção científica e mostras de protótipos da indústria de ponta. Agora, graças ao recente progresso da inteligência artificial (IA), estes protótipos estão a passar de ambientes controlados para aplicações no mundo real. 

Especificamente, com a Gemini Robotics, Google está a dar um passo em frente na tecnologia necessária para construir robôs mais inteligentes. Lançado a 12 de março de 2025, o modelo Gemini Robotics e o seu modelo complementar, Gemini Robotics-ER (Embodied Reasoning), são as mais recentes inovações da Google DeepMind. 

São construídos com base no Gemini 2.0, um modelo multimodal de linguagem grande (LLM) que pode processar e gerar vários tipos de dados, incluindo texto, imagens, áudio e vídeo, facilitando interações mais versáteis e naturais. Estes modelos trazem as capacidades multimodais do Gemini 2.0 para o mundo físico, permitindo robôs mais hábeis, interactivos e inteligentes.

Por exemplo, ao contrário dos robôs tradicionais que seguem instruções fixas, os robôs integrados com os modelos Gemini Robotics podem processar a visão e a linguagem. Isto permite-lhes tomar decisões em tempo real e adaptarem-se a ambientes em mudança.

Neste artigo, vamos explorar a Gemini Robotics e a Gemini Robotics-ER, como funcionam estes modelos e as suas principais caraterísticas e aplicações. Começa a trabalhar!

Figura 1. A Gemini Robotics ajuda os robots a realizar várias tarefas de forma eficiente.

Apresentamos-te Google Gemini Robotics

O Gemini Robotics da Googleé um modelo avançado de IA concebido para dar aos robôs a capacidade de perceber, raciocinar e interagir no mundo físico. Como modelo de visão-linguagem-ação (VLA), permite que os robôs processem instruções, interpretem o seu ambiente e executem tarefas complexas com elevada precisão.

Entretanto, o modelo Gemini Robotics-ER melhora a capacidade de um robô para compreender as relações espaciais de como os objectos estão posicionados, como se movem e como interagem. Isto ajuda os robôs a antecipar acções e a ajustar os seus movimentos em conformidade. 

Por exemplo, considera uma tarefa em que um robô tem de enrolar um fio à volta de um auscultador. O Gemini Robotics-ER ajuda-o a compreender a cena, a reconhecer a forma e a flexibilidade do fio, a identificar a estrutura dos auscultadores e a prever a forma como o fio se vai dobrar à medida que se move. Depois, a Gemini Robotics traduz esta compreensão em ação, coordenando as duas mãos para manipular o fio suavemente, ajustando a sua pega para evitar que se enrole e garantindo um enrolamento seguro.

Combinando a perceção com a ação, a Gemini Robotics e a Gemini Robotics-ER criam um sistema inteligente que permite aos robôs executarem tarefas de destreza de forma eficiente em ambientes dinâmicos.

Figura 2. Apresenta uma visão geral da família de modelos Gemini Robotics.

IA na robótica: Explora o funcionamento da Gemini Robotics

De seguida, vamos analisar mais detalhadamente cada modelo para compreender melhor como a Gemini Robotics e a Gemini Robotics-ER trabalham em conjunto para equilibrar flexibilidade e acções rápidas. 

Por um lado, o Gemini Robotics-ER tira partido de dois mecanismos fundamentais: a geração de código zero-shot e a aprendizagem em contexto (ICL) de poucos disparos. Com a geração de código zero-shot, o modelo pode criar código para controlar o robô com base em instruções de tarefas, imagens e dados em tempo real, sem necessidade de formação adicional. 

Da mesma forma, com a aprendizagem de poucos exemplos, o modelo adapta-se a novas tarefas aprendendo apenas com alguns exemplos, reduzindo a necessidade de treino extensivo. Em conjunto, estes métodos permitem que o robô execute rapidamente tarefas complexas e se adapte a novos desafios com um esforço mínimo.

A Gemini Robotics, por outro lado, foi criada para ser rápida e eficiente. Utiliza um sistema híbrido que consiste numa espinha dorsal baseada na nuvem e num descodificador de acções a bordo. O backbone baseado na nuvem processa a informação rapidamente, com uma latência de consulta para resposta inferior a 160 milissegundos. 

Depois, o descodificador integrado ajuda a traduzir estes dados em acções em tempo real. Este sistema combinado atinge um tempo de resposta global de aproximadamente 250 milissegundos, com uma velocidade de controlo de 50 acções por segundo.

Figura 3. Compreende como a Gemini Robotics suporta o controlo de robôs em tempo real.

Principais capacidades da Gemini Robotics 

Vê aqui uma breve descrição das principais caraterísticas da Gemini Robotics:

  • Generalidade: Consegue adaptar-se a alterações na iluminação, fundos e objectos, mantendo a precisão. Também compreende comandos parafraseados ou multilingues e pode ajustar os movimentos para diferentes condições.

  • Interatividade: Este modelo pode processar uma vasta gama de comandos em linguagem natural e responder intuitivamente. Também ajusta as suas acções com base em alterações em tempo real no ambiente, tornando-o ideal para a colaboração entre humanos e robôs.

  • Destreza: Um robô equipado com este modelo pode executar tarefas complexas e precisas, como dobrar origami ou manusear objectos delicados. Quer se trate de um processo passo a passo ou de acções rápidas, o modelo pode ajudar a executá-las de forma eficiente.
  • Várias formas de realização: Trabalha em várias plataformas robóticas, como sistemas de dois braços e robôs humanóides, com poucos ajustes finos. Adapta-se rapidamente a novas tarefas, mantendo um elevado desempenho.
Figura 4. A Google Gemini Robotics trabalha com várias plataformas robóticas.

Principais capacidades da Gemini Robotics - ER

Vê aqui algumas das principais caraterísticas do Gemini Robotics-ER que ajudam os robôs a compreender e a interagir com o mundo:

  • Deteção de objectos e seguimento de objectos: Pode ser utilizado para identificar e seguir objectos em espaços 2D e 3D. Utilizando consultas em linguagem natural, ajuda os robôs a encontrar objectos e a prever as suas posições, quer com base no tipo, localização ou função.

  • Apontar: Esta funcionalidade permite ao modelo localizar objectos ou partes específicas de uma imagem utilizando coordenadas precisas. Pode ser utilizada para ajudar os robôs a localizar objectos inteiros, partes de objectos ou mesmo espaços vazios.
  • Previsão da aderência: O Gemini Robotics-ER pode ser utilizado para determinar a melhor forma de agarrar objectos com base na sua forma e função. Prevê onde agarrar, quer se trate de uma banana ou de uma pega de chávena, permitindo que os robôs manuseiem os objectos com cuidado.

  • Raciocínio de trajetória: O modelo pode ser utilizado para planear trajectórias de movimento através da previsão de sequências de acções. Por exemplo, pode orientar a mão de um robô para uma ferramenta ou definir pontos de passagem para uma tarefa específica, ajudando o robô a concluir tarefas de forma eficiente.

  • Correspondência de várias vistas: Esta caraterística ajuda o modelo a compreender as estruturas 3D, comparando a forma como os objectos aparecem de diferentes ângulos. Pode ser utilizada para melhorar o raciocínio espacial, permitindo que os robôs interajam melhor com os objectos em ambientes dinâmicos.
Fig. 5. O Gemini Robotics-ER pode realizar uma grande variedade de tarefas.

Aplicações dos modelos do Google Gemini Robotics

Agora que já discutimos as principais capacidades da Gemini Robotics e da Gemini Robotics-ER, vamos mergulhar nas suas aplicações reais em vários sectores.

Google Gemini Robotics pode ser utilizado no fabrico

Quando se trata de fabrico, a precisão e a velocidade são importantes, mas a adaptabilidade é o que realmente faz com que tudo corra bem. Por exemplo, um robô industrial com tecnologia Gemini pode montar um sistema de polias identificando os componentes certos, posicionando-os corretamente e manipulando um elástico flexível com uma força precisa. 

Consegue esticar a banda, enrolá-la à volta das roldanas e prendê-la sem se partir ou desalinhar. Se a configuração mudar ou a tarefa variar, o robot pode adaptar-se sem necessitar de uma reprogramação extensiva. Esta automatização inteligente reduz os erros, melhora a eficiência e mantém os processos de fabrico a funcionar sem problemas.

Fig. 6. Um robô industrial com dois braços coloca com precisão um elástico num sistema de roldanas.

Casas inteligentes com a Gemini Robotics

Os horários ocupados podem tornar difícil acompanhar as tarefas domésticas. Os robôs inteligentes podem intervir para realizar tarefas como limpar, separar as compras e até ajudar a preparar as refeições, facilitando a vida quotidiana

Pode ser um robô a preparar um saco de almoço, selecionando e colocando cuidadosamente os alimentos no seu interior, enquanto ajusta a sua pega para proteger objectos frágeis como fruta ou latas. Mesmo que a disposição mude, o robô pode adaptar-se sozinho, facilitando as tarefas diárias com o mínimo de supervisão.

Fig. 7. Um robô humanoide a arrumar cuidadosamente um saco de almoço.

Prós e contras de utilizar a Gemini Robotics 

A Gemini Robotics está a expandir o que os robôs podem fazer, desde o fabrico preciso até à assistência doméstica inteligente. Eis algumas das principais vantagens da utilização da Gemini Robotics em várias aplicações: 

  • Formação mínima formação requisitos: Ao contrário dos robôs tradicionais, os robôs da Gemini Robotics podem aprender com algumas demonstrações, reduzindo os custos de formação e tornando-os mais fáceis de utilizar.

  • Aumenta a segurança: Em ambientes perigosos, os robôs integrados com a Gemini Robotics podem executar tarefas perigosas, reduzindo o risco de ferimentos nos trabalhadores humanos.
  • Caraterísticas personalizáveis: A flexibilidade da Gemini Robotics significa que pode ser adaptada para satisfazer as necessidades específicas de diferentes indústrias ou empresas individuais, permitindo aplicações especializadas e soluções únicas.

Embora a Gemini Robotics ofereça várias vantagens, também é importante ter em conta as seguintes limitações:

  • Desafios nas relações espaciais: Estes modelos podem ter dificuldade em manter o registo das relações espaciais em longas sequências de vídeo, o que afecta a sua capacidade de seguir e compreender os objectos ao longo do tempo.
  • Falta de precisão numérica: As previsões do modelo, como pontos e caixas delimitadoras, podem não ser suficientemente precisas para tarefas que requerem um controlo fino, como tarefas robóticas delicadas.
  • Tarefas complexas: A Gemini Robotics pode ter dificuldades em lidar com tarefas complexas que exijam raciocínio em várias etapas e movimentos precisos, especialmente em situações novas ou desconhecidas. 

O futuro da IA na robótica

À medida que a IA continua a avançar, modelos como o Gemini Robotics e o Gemini Robotics-ER estão a impulsionar o futuro da robótica. As melhorias futuras centrar-se-ão provavelmente na melhoria do raciocínio em várias etapas, permitindo que os robôs dividam as tarefas em etapas lógicas para uma maior precisão.

Outra área fundamental de desenvolvimento em que Google DeepMind planeia trabalhar é o treino baseado em simulações. Ao aprenderem em ambientes virtuais antes de serem utilizados no mundo real, os robôs podem aperfeiçoar as suas decisões e movimentos, minimizando os erros nas aplicações práticas.

À medida que estas tecnologias evoluem, podem abrir caminho para um futuro em que os robôs sejam mais autónomos, adaptáveis e capazes de trabalhar sem problemas ao lado dos humanos na vida quotidiana.

Principais conclusões

A Gemini Robotics é um grande passo em frente na automação orientada para a IA, ligando a inteligência digital a tarefas físicas do mundo real. Ao combinar a visão, a linguagem e a aprendizagem baseada na ação, estes robôs podem realizar tarefas complexas com precisão e adaptabilidade. 

À medida que os robôs continuam a tornar-se mais inteligentes, é provável que venham a desempenhar um papel mais importante na vida quotidiana, alterando a forma como os seres humanos e as máquinas trabalham em conjunto. Este progresso está a aproximar-nos de um mundo inteligente e mais conectado, onde a automação impulsionada pela IA melhora tanto as indústrias como as tarefas diárias.

Torna-te parte da nossa comunidade em crescimento! Visita o nosso repositório GitHub para mergulhares mais fundo na IA. Queres começar os teus próprios projectos de visão computacional? Dá uma vista de olhos às nossas opções de licenciamento. Sabe mais sobre a IA no fabrico e a IA de visão na indústria automóvel nas nossas páginas de soluções!

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática