Controllo verde
Link copiato negli appunti

L'intelligenza artificiale generativa sta cambiando la strada da percorrere per la computer vision

Scopri le interessanti intuizioni di una tavola rotonda a YOLO Vision 2024. Scopri come l'IA generativa sta delineando la strada da percorrere per i modelli di Vision AI in tempo reale.

L'IA generativa è un ramo dell'intelligenza artificiale (IA) che crea nuovi contenuti, come immagini, testi o audio, apprendendo modelli dai dati esistenti. Grazie ai recenti progressi, oggi può essere utilizzata per produrre contenuti altamente realistici che spesso imitano la creatività umana.

Tuttavia, l'impatto dell'IA generativa va oltre la semplice creazione di contenuti. Con l'evoluzione dei modelli di visione artificiale in tempo reale, come i modelliYOLO diUltralytics , l'IA generativa sta ridefinendo il modo in cui i dati visivi vengono elaborati e aumentati, aprendo la strada ad applicazioni innovative in scenari reali. 

Questo nuovo cambiamento tecnologico è stato un interessante argomento di conversazione a YOLO Vision 2024 (YV24), un evento ibrido annuale ospitato da Ultralytics. YV24 ha visto riunirsi appassionati di AI e leader del settore per discutere delle ultime scoperte nel campo della computer vision. L'evento si è concentrato sull'innovazione, l'efficienza e il futuro delle soluzioni AI in tempo reale.

Uno dei momenti salienti dell'evento è stata la tavola rotonda YOLO in the Age of Generative AI. Il panel ha visto la partecipazione di Glenn Jocher, Fondatore e CEO di Ultralytics, Jing Qiu, Senior Machine Learning Engineer di Ultralytics, e Ao Wang della Tsinghua University. I partecipanti hanno analizzato il modo in cui l'IA generativa sta influenzando la computer vision e le sfide legate alla creazione di modelli di IA pratici.

In questo articolo, rivedremo i punti chiave della loro discussione e daremo un'occhiata più da vicino a come l'IA generativa sta trasformando l'IA di visione.

Sviluppare i modelli Ultralytics YOLO

Oltre a Glenn Jocher, molti ingegneri qualificati hanno svolto un ruolo fondamentale nello sviluppo dei modelliYOLO di Ultralytics . Uno di loro, Jing Qiu, ha raccontato il suo inizio inaspettato con YOLO. Ha spiegato che la sua passione per l'intelligenza artificiale è nata durante gli anni dell'università. Ha trascorso molto tempo a esplorare e conoscere questo campo. Jing Qiu ha ricordato come sia entrato in contatto con Glenn Jocher su GitHub e come sia stato coinvolto in diversi progetti di IA.

In aggiunta a quanto detto da Jing Qiu, Glenn Jocher ha descritto GitHub come "un modo incredibile di condividere, dove persone che non hai mai incontrato si uniscono per aiutarsi a vicenda, contribuendo al lavoro degli altri. È una grande comunità e un ottimo modo per iniziare a lavorare nell'IA".

Figura 1. Glenn Jocher e Jing Qiu parlano sul palco di YV24.

L'interesse di Jing Qiu per l'IA e il suo lavoro su Ultralytics YOLOv5 ha contribuito a perfezionare il modello. In seguito, ha svolto un ruolo fondamentale nello sviluppo di Ultralytics YOLOv8che ha introdotto ulteriori miglioramenti. Lo descrive come un viaggio incredibile. Oggi Jing Qiu continua a migliorare e a lavorare su modelli come Ultralytics YOLO11

YOLOv10: ottimizzato per le prestazioni del mondo reale

Partecipando alla tavola rotonda in remoto dalla Cina, Ao Wang si è presentato come uno studente di dottorato. Inizialmente ha studiato ingegneria del software, ma la sua passione per l'intelligenza artificiale lo ha portato a orientarsi verso la computer vision e il deep learning.

Il suo primo incontro con il famoso modello YOLO è avvenuto durante la sperimentazione di varie tecniche e modelli di intelligenza artificiale. Rimase impressionato dalla sua velocità e precisione, che lo ispirò ad approfondire le attività di computer vision come il rilevamento degli oggetti. Recentemente, Ao Wang ha contribuito a YOLOv10, una versione recente del modello YOLO . La sua ricerca si è concentrata sull'ottimizzazione del modello per renderlo più veloce e preciso.

La differenza fondamentale tra AI generativa e AI di visione

In seguito, il gruppo ha iniziato a discutere di IA generativa e Jing Qiu ha sottolineato che l'IA generativa e l'IA di visione hanno scopi molto diversi. L'IA generativa crea o genera cose come testi, immagini e video, mentre l'IA di visione analizza ciò che già esiste, soprattutto immagini.

Glenn Jocher ha sottolineato che anche le dimensioni rappresentano una grande differenza. I modelli di intelligenza artificiale generativa sono enormi e spesso contengono miliardi di parametri - impostazioni interne che aiutano il modello a imparare dai dati. I modelli di computer vision sono molto più piccoli. Ha detto: "Il più piccolo modello YOLO che abbiamo è circa mille volte più piccolo del più piccolo LLM [Large Language Model]. Quindi, 3 milioni di parametri contro 3 miliardi".

Figura 3. La tavola rotonda sull'IA generativa e l'IA della visione a YV24.

Jing Qiu ha aggiunto che i processi di formazione e implementazione dell'IA generativa e della computer vision sono molto diversi. L'IA generativa ha bisogno di server enormi e potenti per funzionare. I modelli come YOLO, invece, sono costruiti per essere efficienti e possono essere addestrati e distribuiti su hardware standard. Questo rende i modelliYOLO di Ultralytics più pratici per l'uso nel mondo reale.

Anche se sono diversi, questi due campi stanno iniziando a intrecciarsi. Glenn Jocher ha spiegato che l'IA generativa sta apportando nuovi progressi all'IA di visione, rendendo i modelli più intelligenti ed efficienti. 

L'impatto dell'IA generativa sulla computer vision

L'intelligenza artificiale generativa è progredita rapidamente e queste scoperte stanno influenzando molte altre aree dell'intelligenza artificiale, tra cui la computer vision. Vediamo quindi alcuni interessanti spunti di riflessione forniti dal gruppo di esperti.

I progressi dell'hardware rendono possibili le innovazioni dell'intelligenza artificiale

All'inizio del panel, Glenn Jocher ha spiegato che le idee sull'apprendimento automatico esistono da molto tempo, ma i computer non erano abbastanza potenti per farle funzionare. Le idee sull'intelligenza artificiale necessitano di un hardware più potente per diventare realtà.

L'avvento delle GPU (Graphics Processing Unit) negli ultimi 20 anni, con le loro capacità di elaborazione in parallelo, ha cambiato tutto. Hanno reso l'addestramento dei modelli di intelligenza artificiale molto più veloce ed efficiente, consentendo un rapido sviluppo del deep learning.

Al giorno d'oggi, i chip di intelligenza artificiale come le TPU (Tensor Processing Unit) e le GPU ottimizzate consumano meno energia pur gestendo modelli più grandi e complessi. Questo ha reso l'IA più accessibile e utile nelle applicazioni del mondo reale.

Con ogni nuovo miglioramento hardware, le applicazioni di IA generativa e di computer vision diventano sempre più potenti. Questi progressi rendono l'IA in tempo reale più veloce, più efficiente e pronta per essere utilizzata in un maggior numero di settori.

Come l'intelligenza artificiale generativa sta dando forma ai modelli di rilevamento degli oggetti

Alla domanda su come l'IA generativa stia influenzando la computer vision, Jing Qiu ha risposto che i trasformatori - modelli che aiutano l'IA a concentrarsi sulle parti più importanti di un'immagine - hanno cambiato il modo in cui l'IA comprende ed elabora le immagini. Il primo grande passo è stato DETR (Detection Transformer), che ha utilizzato questo nuovo approccio per il rilevamento degli oggetti. Ha migliorato l'accuratezza ma ha avuto problemi di prestazioni che lo hanno reso più lento in alcuni casi.

Per risolvere questo problema, i ricercatori hanno creato modelli ibridi come RT-DETR. Questi modelli combinano reti neurali convoluzionali (CNN, che sono modelli di apprendimento profondo che imparano ed estraggono automaticamente le caratteristiche dalle immagini) e trasformatori, bilanciando velocità e precisione. Questo approccio sfrutta i vantaggi dei trasformatori e rende più veloce il rilevamento degli oggetti.

È interessante notare che YOLOv10 utilizza livelli di attenzione basati su trasformatori (parti del modello che agiscono come un riflettore per evidenziare le aree più importanti di un'immagine ignorando i dettagli meno rilevanti) per aumentare le sue prestazioni. 

Ao Wang ha anche ricordato come l'IA generativa stia cambiando il modo in cui vengono addestrati i modelli. Tecniche come la modellazione di immagini mascherate aiutano l'intelligenza artificiale ad apprendere dalle immagini in modo più efficiente, riducendo la necessità di grandi set di dati etichettati manualmente. In questo modo la formazione della computer vision diventa più veloce e meno dispendiosa in termini di risorse.

Il futuro dell'IA generativa e dell'IA di visione 

Un'altra idea chiave discussa dal panel è stata quella di come l'IA generativa e l'IA visiva potrebbero unirsi per costruire modelli più capaci. Glenn Jocher ha spiegato che, sebbene questi due approcci abbiano punti di forza diversi, la loro combinazione potrebbe aprire nuove possibilità. 

Ad esempio, i modelli di Vision AI come YOLO spesso suddividono un'immagine in una griglia per identificare gli oggetti. Questo metodo basato sulla griglia potrebbe aiutare i modelli linguistici a migliorare la loro capacità di individuare i dettagli e di descriverli, una sfida che molti modelli linguistici devono affrontare oggi. In sostanza, la fusione di queste tecniche potrebbe portare a sistemi in grado di individuare con precisione e spiegare chiaramente ciò che vedono.

Figura 4. Il futuro dell'intelligenza artificiale generativa e della visione. Immagine dell'autore.

Punti di forza

L'IA generativa e la computer vision stanno progredendo insieme. Se da un lato l'IA generativa crea immagini e video, dall'altro migliora l'analisi di immagini e video apportando nuove idee innovative che potrebbero rendere i modelli di IA di visione più precisi ed efficienti. 

In questa interessante tavola rotonda di YV24, Glenn Jocher, Jing Qiu e Ao Wang hanno condiviso i loro pensieri su come queste tecnologie stanno plasmando il futuro. Con un hardware AI migliore, l'AI generativa e l'AI di visione continueranno a evolversi, portando a innovazioni ancora più grandi. Questi due campi stanno lavorando insieme per creare un'intelligenza artificiale più intelligente, più veloce e più utile per la vita di tutti i giorni.

Unisciti alla nostra comunità ed esplora il nostro repository GitHub per saperne di più sulla Vision AI. Scopri le nostre opzioni di licenza per dare il via ai tuoi progetti di computer vision. Sei interessato a innovazioni come l'IA nella produzione o la computer vision nella guida autonoma? Visita le nostre pagine dedicate alle soluzioni per saperne di più. 

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico