Confronta Ultralytics YOLOv8, YOLOv9, YOLOv10 e Ultralytics YOLO11 per capire come si sono evoluti e migliorati questi modelli dal 2023 al 2025.
Dall'automatizzazione delle attività quotidiane all'aiuto nel prendere decisioni informate in tempo reale, l'intelligenza artificiale (AI) sta ridisegnando il futuro di diversi settori. Un'area particolarmente affascinante dell'IA è la computer vision, altrimenti nota come Vision AI. Si tratta di consentire alle macchine di analizzare e interpretare i dati visivi come fanno gli esseri umani.
In particolare, i modelli di computer vision sono alla base di innovazioni che migliorano la sicurezza e l'efficienza. Per esempio, questi modelli sono utilizzati nelle auto a guida autonoma per rilevare i pedoni e nelle telecamere di sicurezza per monitorare i locali 24 ore su 24.
Alcuni dei modelli di computer vision più conosciuti sono i modelli YOLO (You Only Look Once), noti per le loro capacità di rilevamento degli oggetti in tempo reale. Nel corso del tempo, i modelli YOLO sono migliorati e ogni nuova versione offre prestazioni migliori e maggiore flessibilità.
Le versioni più recenti come Ultralytics YOLO11 sono in grado di gestire una serie di attività, come la segmentazione delle istanze, la classificazione delle immagini, la stima della posa e il tracciamento di più oggetti, con un'accuratezza, una velocità e una precisione mai viste prima.
In questo articolo confronteremo Ultralytics YOLOv8YOLOv9, YOLOv10 e Ultralytics YOLO11 per capire meglio come si sono evoluti questi modelli. Analizzeremo le loro caratteristiche principali, i risultati dei benchmark e le differenze di prestazioni. Iniziamo!
YOLOv8, rilasciato da Ultralytics il 10 gennaio 2023, rappresenta un importante passo avanti rispetto ai precedenti modelli YOLO . È ottimizzato per un rilevamento accurato e in tempo reale, combinando approcci ben collaudati con aggiornamenti innovativi per ottenere risultati migliori.
Oltre al rilevamento degli oggetti, supporta anche le seguenti attività di computer vision: segmentazione dell'istanza, stima della posa, rilevamento degli oggetti oriented bounding box (OBB) e classificazione delle immagini. Un'altra importante caratteristica di YOLOv8 è che è disponibile in cinque diverse varianti di modello - Nano, Small, Medium, Large e X - in modo da poter scegliere il giusto equilibrio tra velocità e precisione in base alle tue esigenze.
Grazie alla sua versatilità e alle sue ottime prestazioni, YOLOv8 può essere utilizzato in molte applicazioni reali, come i sistemi di sicurezza, le smart city, la sanità e l'automazione industriale.
Ecco un approfondimento su alcune delle altre caratteristiche principali di YOLOv8:
YOLOv9 è stato rilasciato il 21 febbraio 2024 da Chien-Yao Wang e Hong-Yuan Mark Liao dell'Institute of Information Science, Academia Sinica, Taiwan. Supporta compiti come il rilevamento di oggetti e la segmentazione di istanze.
Questo modello si basa su Ultralytics YOLOv5 e introduce due importanti innovazioni: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).
L'IGP aiuta YOLOv9 a conservare le informazioni importanti mentre elabora i dati attraverso i suoi livelli, il che porta a risultati più accurati. Nel frattempo, GELAN migliora il modo in cui il modello utilizza i suoi livelli, aumentando le prestazioni e l'efficienza di calcolo. Grazie a questi aggiornamenti, YOLOv9 è in grado di gestire attività in tempo reale su dispositivi edge e app mobili, dove le risorse di calcolo sono spesso limitate.
Ecco un assaggio di alcune delle altre caratteristiche principali di YOLOv8:
YOLOv10 è stato presentato il 23 maggio 2024 dai ricercatori della Tsinghua University ed è incentrato sul rilevamento di oggetti in tempo reale. Affronta le limitazioni delle versioni precedenti di YOLO eliminando la necessità della soppressione non massimale (NMS), una fase di post-elaborazione utilizzata per eliminare i rilevamenti doppi, e perfezionando il design generale del modello. Il risultato è un rilevamento degli oggetti più rapido ed efficiente, pur mantenendo un'accuratezza all'avanguardia.
Una parte fondamentale di ciò che rende possibile tutto questo è un approccio di formazione noto come assegnazione coerente di due etichette. Questo approccio combina due strategie: una che permette a più previsioni di imparare dallo stesso oggetto (uno-a-molti) e un'altra che si concentra sulla scelta della migliore previsione singola (uno-a-uno). Poiché entrambe le strategie seguono le stesse regole di corrispondenza, il modello impara da solo a evitare i duplicati, quindi l'NMS non è necessario.
L'architettura di YOLOv10 si avvale inoltre di una struttura portante CSPNet migliorata per apprendere le caratteristiche in modo più efficace e di un collo PAN (Path Aggregation Network) che combina le informazioni provenienti da diversi livelli, migliorando il rilevamento di oggetti sia piccoli che grandi. Questi miglioramenti rendono possibile l'utilizzo di YOLOv10 per applicazioni reali nei settori della produzione, della vendita al dettaglio e della guida autonoma.
Ecco alcune delle altre caratteristiche di YOLOv10:
Quest'anno, il 30 settembre, Ultralytics ha lanciato ufficialmente YOLO11 - uno degli ultimi modelli della serie YOLO - in occasione del suo evento ibrido annuale, YOLO Vision 2024 (YV24).
Questa versione ha introdotto miglioramenti significativi rispetto alle versioni precedenti. YOLO11 è più veloce, più preciso e altamente efficiente. Supporta l'intera gamma di attività di computer vision che gli utenti di YOLOv8 conoscono bene, tra cui il rilevamento di oggetti, la segmentazione di istanze e la classificazione di immagini. Inoltre, mantiene la compatibilità con i flussi di lavoro di YOLOv8 , facilitando la transizione degli utenti alla nuova versione.
Inoltre, YOLO11 è progettato per soddisfare un'ampia gamma di esigenze informatiche, dai dispositivi edge leggeri ai potenti sistemi cloud. Il modello è disponibile sia in versione open-source che in versione enterprise, il che lo rende adattabile a diversi casi d'uso.
È un'ottima opzione per attività di precisione come l'imaging medico e il rilevamento di satelliti, ma anche per applicazioni più ampie nei veicoli autonomi, nell'agricoltura e nella sanità.
Ecco alcune delle altre caratteristiche uniche di YOLO11:
Quando si esplorano diversi modelli, non è sempre facile confrontarli solo guardando le loro caratteristiche. È qui che entra in gioco il benchmarking. Eseguendo tutti i modelli sullo stesso set di dati, possiamo misurare e confrontare oggettivamente le loro prestazioni. Diamo un'occhiata alle prestazioni di ciascun modello sul set di dati COCO.
Quando si confrontano i modelli YOLO , ogni nuova versione apporta notevoli miglioramenti in termini di precisione, velocità e flessibilità. In particolare, YOLO11m fa un balzo in avanti perché utilizza il 22% di parametri in meno rispetto a YOLOv8m, il che significa che è più leggero e veloce da eseguire. Inoltre, nonostante le dimensioni ridotte, ottiene una precisione media superiore (mAP) sul set di dati COCO. Questa metrica misura l'accuratezza con cui il modello rileva e localizza gli oggetti, quindi una mAP più alta significa previsioni più accurate.
Vediamo come si comportano questi modelli in una situazione reale.
Per confrontare YOLOv8, YOLOv9, YOLOv10 e YOLO11, tutti e quattro sono stati eseguiti sullo stesso video del traffico utilizzando un punteggio di confidenza di 0,3 (il modello visualizza i rilevamenti solo quando è sicuro di aver identificato correttamente un oggetto per almeno il 30%) e una dimensione dell'immagine di 640 per una valutazione equa. I risultati del rilevamento e del tracciamento degli oggetti hanno evidenziato le principali differenze in termini di accuratezza, velocità e precisione del rilevamento.
Fin dal primo fotogramma, YOLO11 ha individuato veicoli di grandi dimensioni, come i camion, che YOLOv10 non ha rilevato. YOLOv8 e YOLOv9 hanno mostrato prestazioni decenti, ma variabili a seconda delle condizioni di illuminazione e delle dimensioni dell'oggetto. I veicoli più piccoli e distanti sono rimasti una sfida per tutti i modelli, anche se YOLO11 ha mostrato notevoli miglioramenti anche in questi rilevamenti.
In termini di velocità, tutti i modelli hanno operato tra i 10 e i 20 millisecondi per fotogramma, abbastanza velocemente da gestire attività in tempo reale a oltre 50 FPS. Da un lato, YOLOv8 e YOLOv9 hanno fornito rilevamenti costanti e affidabili per tutto il video. È interessante notare che YOLOv10, progettato per una latenza più bassa, è stato più veloce ma ha mostrato alcune incongruenze nel rilevamento di alcuni tipi di oggetti.
YOLO11, invece, si è distinto per la sua precisione, offrendo un forte equilibrio tra velocità e accuratezza. Anche se nessuno dei modelli si è comportato perfettamente in ogni fotogramma, il confronto fianco a fianco ha dimostrato chiaramente che YOLO11 ha fornito le migliori prestazioni complessive.
La scelta di un modello per un progetto dipende dai suoi requisiti specifici. Ad esempio, alcune applicazioni possono dare la priorità alla velocità, mentre altre possono richiedere una maggiore precisione o avere vincoli di distribuzione che influenzano la decisione.
Un altro fattore importante è il tipo di attività di computer vision che devi affrontare. Se cerchi una maggiore flessibilità tra i vari compiti, YOLOv8 e YOLO11 sono ottime opzioni.
La scelta di YOLOv8 o YOLO11 dipende dalle tue esigenze. YOLOv8 è un'opzione valida se sei alle prime armi con la computer vision e apprezzi una comunità più ampia, più tutorial e ampie integrazioni di terze parti.
D'altra parte, se cerchi prestazioni all'avanguardia con una migliore precisione e velocità, YOLO11 è la scelta migliore, anche se ha una comunità più piccola e meno integrazioni a causa del fatto che è una versione più recente.
Da Ultralytics YOLOv8 a Ultralytics YOLO11, l'evoluzione della serie di modelli YOLO riflette una spinta costante verso modelli di computer vision più intelligenti. Ogni versione di YOLO apporta significativi miglioramenti in termini di velocità, accuratezza e precisione.
Con il continuo progresso della computer vision, questi modelli offrono soluzioni affidabili alle sfide del mondo reale, dal rilevamento degli oggetti ai sistemi autonomi. Il continuo sviluppo dei modelli YOLO dimostra quanta strada è stata fatta nel settore e quanto ancora possiamo aspettarci per il futuro.
Per saperne di più sull'IA, visita il nostro repository GitHub e partecipa alla nostra comunità. Scopri i progressi in tutti i settori, dalla Vision AI nel settore manifatturiero alla computer vision nel settore sanitario. Scopri le nostre opzioni di licenza per iniziare oggi stesso i tuoi progetti di Vision AI.
Inizia il tuo viaggio nel futuro dell'apprendimento automatico