Controllo verde
Link copiato negli appunti

I modelli di Google Gemini Robotics stanno alimentando robot più intelligenti

Scopri come Google Gemini Robotics potenzia i robot dotati di intelligenza artificiale con intelligenza multimodale, aumentando l'adattabilità, la destrezza e l'interazione umana senza soluzione di continuità.

Per decenni i robot hanno simboleggiato il futuro, apparendo nei laboratori di ricerca, nei film di fantascienza e nelle vetrine di prototipi industriali all'avanguardia. Ora, grazie ai recenti progressi dell 'intelligenza artificiale (AI), questi prototipi stanno uscendo dagli ambienti controllati per entrare nelle applicazioni reali. 

In particolare, con Gemini Robotics, Google sta facendo un passo avanti verso la tecnologia necessaria per costruire robot più intelligenti. Lanciato il 12 marzo 2025, il modello Gemini Robotics e il suo modello complementare, Gemini Robotics-ER (Embodied Reasoning), sono le ultime innovazioni di Google DeepMind. 

Sono costruiti su Gemini 2.0, un Large Language Model (LLM) multimodale in grado di elaborare e generare vari tipi di dati, tra cui testo, immagini, audio e video, facilitando interazioni più versatili e naturali. Questi modelli portano le capacità multimodali di Gemini 2.0 nel mondo fisico, consentendo ai robot di essere più abili, interattivi e intelligenti.

Ad esempio, a differenza dei robot tradizionali che seguono istruzioni fisse, i robot integrati con i modelli Gemini Robotics possono elaborare la visione e il linguaggio. In questo modo possono prendere decisioni in tempo reale e adattarsi ai cambiamenti dell'ambiente.

In questo articolo esploreremo Gemini Robotics e Gemini Robotics-ER, il funzionamento di questi modelli e le loro caratteristiche e applicazioni principali. Iniziamo!

Figura 1. Gemini Robotics aiuta i robot a svolgere diversi compiti in modo efficiente.

Presentazione di Google Gemini Robotics

Gemini Robotics di Googleè un modello avanzato di intelligenza artificiale progettato per dare ai robot la capacità di percepire, ragionare e interagire nel mondo fisico. Come modello di visione-linguaggio-azione (VLA), permette ai robot di elaborare istruzioni, interpretare l'ambiente circostante ed eseguire compiti complessi con grande precisione.

Nel frattempo, il modello Gemini Robotics-ER migliora la capacità di un robot di comprendere le relazioni spaziali di come sono posizionati gli oggetti, come si muovono e come interagiscono. Questo aiuta i robot ad anticipare le azioni e a regolare i loro movimenti di conseguenza. 

Ad esempio, consideriamo un compito in cui un robot deve avvolgere un filo attorno a una cuffia. Gemini Robotics-ER lo aiuta a comprendere la scena, a riconoscere la forma e la flessibilità del filo, a identificare la struttura della cuffia e a prevedere come il filo si piegherà durante il movimento. Poi, Gemini Robotics traduce questa comprensione in azione, coordinando entrambe le mani per manipolare il filo in modo fluido, regolando la presa per evitare che si aggrovigli e garantendo un avvolgimento sicuro.

Combinando la percezione con l'azione, Gemini Robotics e Gemini Robotics-ER creano un sistema intelligente che permette ai robot di eseguire compiti di destrezza in modo efficiente in ambienti dinamici.

Figura 2. Panoramica della famiglia di modelli Gemini Robotics.

L'intelligenza artificiale nella robotica: Esploriamo il funzionamento di Gemini Robotics

Diamo quindi un'occhiata più da vicino a ciascun modello per capire meglio come Gemini Robotics e Gemini Robotics-ER lavorano insieme per bilanciare flessibilità e rapidità d'azione. 

Da un lato, Gemini Robotics-ER sfrutta due meccanismi chiave: la generazione di codice a zero scatti e l'apprendimento in contesto a pochi scatti (ICL). Con la generazione di codice a zero scatti, il modello può creare codice per controllare il robot in base alle istruzioni del compito, alle immagini e ai dati in tempo reale senza richiedere ulteriore formazione. 

Allo stesso modo, con l'apprendimento a pochi scatti, il modello si adatta a nuovi compiti imparando da pochi esempi, riducendo la necessità di una formazione approfondita. Insieme, questi metodi permettono al robot di eseguire rapidamente compiti complessi e di adattarsi a nuove sfide con il minimo sforzo.

Gemini Robotics, invece, è costruito per la velocità e l'efficienza. Utilizza un sistema ibrido composto da un backbone basato sul cloud e da un decodificatore di azioni a bordo. Il backbone basato sul cloud elabora le informazioni in modo rapido, con una latenza da domanda a risposta inferiore a 160 millisecondi. 

Poi, il decodificatore a bordo aiuta a tradurre questi dati in azioni in tempo reale. Questo sistema combinato raggiunge un tempo di risposta complessivo di circa 250 millisecondi, con una velocità di controllo di 50 azioni al secondo.

Figura 3. Comprensione del modo in cui Gemini Robotics supporta il controllo dei robot in tempo reale.

Capacità principali di Gemini Robotics 

Ecco una rapida panoramica delle caratteristiche principali di Gemini Robotics:

  • Generalità: È in grado di adattarsi ai cambiamenti di illuminazione, di sfondo e di oggetti, pur rimanendo preciso. Capisce anche i comandi parafrasati o multilingue e può adattare i movimenti alle diverse condizioni.

  • Interattività: Questo modello può elaborare un'ampia gamma di comandi in linguaggio naturale e rispondere in modo intuitivo. Inoltre, regola le sue azioni in base ai cambiamenti dell'ambiente in tempo reale, rendendolo ideale per la collaborazione uomo-robot.

  • Destrezza: Un robot alimentato da questo modello può eseguire compiti complessi e precisi, come piegare origami o maneggiare oggetti delicati. Che si tratti di un processo graduale o di azioni rapide, il modello può aiutare a eseguirle in modo efficiente.
  • Incarnazioni multiple: Funziona su diverse piattaforme robotiche, come i sistemi bi-braccio e i robot umanoidi, con una messa a punto minima. Si adatta rapidamente a nuovi compiti mantenendo alte le prestazioni.
Figura 4. Google Gemini Robotics lavora su diverse piattaforme robotiche.

Capacità principali di Gemini Robotics - ER

Ecco alcune delle caratteristiche principali di Gemini Robotics-ER che aiutano i robot a capire e interagire con il mondo:

  • Rilevamento di oggetti e tracciamento degli oggetti: Può essere utilizzato per identificare e seguire gli oggetti in spazi sia 2D che 3D. Utilizzando query in linguaggio naturale, aiuta i robot a trovare gli oggetti e a prevederne la posizione, in base al tipo, alla posizione o alla funzione.

  • Puntamento: Questa funzione permette al modello di individuare oggetti o parti specifiche all'interno di un'immagine utilizzando coordinate precise. Può essere utilizzata per aiutare i robot a localizzare oggetti interi, parti di oggetti o persino spazi vuoti.
  • Previsione della presa: Gemini Robotics-ER può essere utilizzato per determinare il modo migliore per afferrare gli oggetti in base alla loro forma e funzione. Prevede dove afferrare, che si tratti di una banana o del manico di una tazza, consentendo ai robot di maneggiare gli oggetti con cura.

  • Ragionamento delle traiettorie: Il modello può essere utilizzato per pianificare percorsi di movimento prevedendo sequenze di azioni. Ad esempio, può guidare la mano di un robot verso uno strumento o definire dei waypoint per un compito specifico, aiutando il robot a completare le attività in modo efficiente.

  • Corrispondenza multi-vista: Questa funzione aiuta il modello a comprendere le strutture 3D confrontando l'aspetto degli oggetti da diverse angolazioni. Può essere utilizzata per migliorare il ragionamento spaziale, permettendo ai robot di interagire meglio con gli oggetti in ambienti dinamici.
Figura 5. Gemini Robotics-ER è in grado di gestire una grande varietà di compiti.

Applicazioni dei modelli di Google Gemini Robotics

Ora che abbiamo discusso le principali funzionalità di Gemini Robotics e Gemini Robotics-ER, vediamo le loro applicazioni reali in diversi settori.

La robotica Google Gemini può essere utilizzata nel settore manifatturiero

Quando si parla di produzione, la precisione e la velocità sono importanti, ma l'adattabilità è ciò che rende tutto più fluido. Ad esempio, un robot industriale Gemini è in grado di assemblare un sistema di pulegge individuando i componenti giusti, posizionandoli correttamente e gestendo un elastico flessibile con una forza precisa. 

Può allungare la banda, avvolgerla intorno alle pulegge e fissarla senza rompersi o disallinearsi. Se l'impostazione cambia o il compito varia, il robot può adattarsi senza doverlo riprogrammare. Questa automazione intelligente riduce gli errori, migliora l'efficienza e fa sì che i processi produttivi si svolgano senza intoppi.

Figura 6. Un robot industriale bi-braccio inserisce con precisione un elastico in un sistema di pulegge.

Case intelligenti abilitate da Gemini Robotics

Gli impegni possono rendere impegnativo il mantenimento delle faccende domestiche. I robot intelligenti possono intervenire per gestire compiti come la pulizia, lo smistamento della spesa e persino la preparazione dei pasti, semplificando la vita quotidiana

Potrebbe trattarsi di un robot che prepara un pranzo al sacco, selezionando e posizionando con cura gli alimenti all'interno e regolando la presa per proteggere gli oggetti fragili come la frutta o le lattine. Anche se la disposizione cambia, il robot può adattarsi da solo, facilitando le faccende quotidiane con una supervisione minima.

Figura 7. Un robot umanoide che prepara con cura una borsa per il pranzo.

Pro e contro dell'utilizzo di Gemini Robotics 

Gemini Robotics sta ampliando le possibilità dei robot, dalla produzione di precisione all'assistenza domestica intelligente. Ecco alcuni dei principali vantaggi dell'utilizzo di Gemini Robotics in diverse applicazioni: 

  • Minima formazione requisiti: A differenza dei robot tradizionali, i robot guidati da Gemini Robotics possono imparare da poche dimostrazioni, riducendo i costi di formazione e facilitando l'impiego.

  • Maggiore sicurezza: In ambienti pericolosi, i robot integrati con Gemini Robotics possono svolgere compiti pericolosi, riducendo il rischio di lesioni per i lavoratori umani.
  • Caratteristiche personalizzabili: La flessibilità di Gemini Robotics significa che può essere personalizzata per soddisfare le esigenze specifiche di diversi settori o di singole aziende, consentendo applicazioni specializzate e soluzioni uniche.

Sebbene la robotica Gemini offra diversi vantaggi, è anche importante affrontare i seguenti limiti:

  • Problemi di relazione spaziale: Questi modelli possono avere difficoltà a tenere traccia delle relazioni spaziali su lunghe sequenze video, il che influisce sulla loro capacità di seguire e comprendere gli oggetti nel tempo.
  • Mancanza di precisione numerica: Le previsioni del modello, come i punti e i riquadri di delimitazione, potrebbero non essere abbastanza precise per attività che richiedono un controllo fine, come le attività robotiche delicate.
  • Compiti complessi: Gemini Robotics potrebbe avere difficoltà a gestire compiti complessi che richiedono ragionamenti in più fasi e movimenti precisi, soprattutto in situazioni nuove o poco familiari. 

Il futuro dell'intelligenza artificiale nella robotica

Mentre l'intelligenza artificiale continua a progredire, modelli come Gemini Robotics e Gemini Robotics-ER stanno guidando il futuro della robotica. I miglioramenti futuri si concentreranno probabilmente sul miglioramento del ragionamento in più fasi, consentendo ai robot di suddividere i compiti in passaggi logici per una maggiore precisione.

Un'altra area di sviluppo fondamentale su cui Google DeepMind intende lavorare è l'addestramento basato sulla simulazione. Imparando in ambienti virtuali prima dell'impiego nel mondo reale, i robot possono affinare le loro decisioni e i loro movimenti, riducendo al minimo gli errori nelle applicazioni pratiche.

L'evoluzione di queste tecnologie potrebbe aprire la strada a un futuro in cui i robot saranno sempre più autonomi, adattabili e in grado di affiancare l'uomo nella vita quotidiana.

Punti di forza

Gemini Robotics rappresenta un grande passo avanti nell'automazione guidata dall'intelligenza artificiale, collegando l'intelligenza digitale con le attività fisiche del mondo reale. Combinando visione, linguaggio e apprendimento basato sull'azione, questi robot possono gestire compiti complessi con precisione e adattabilità. 

Man mano che i robot continuano a diventare più intelligenti, probabilmente svolgeranno un ruolo più importante nella vita quotidiana, cambiando il modo in cui uomini e macchine lavorano insieme. Questi progressi ci avvicinano a un mondo intelligente e più connesso, in cui l'automazione guidata dall'AI migliora sia le industrie che le attività quotidiane.

Entra a far parte della nostra comunità in crescita! Visita il nostro repository GitHub per approfondire il tema dell'intelligenza artificiale. Vuoi avviare un tuo progetto di computer vision? Dai un'occhiata alle nostre opzioni di licenza. Scopri di più sull'IA nella produzione e sull'IA di visione nell' industria automobilistica nelle nostre pagine dedicate alle soluzioni!

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico