Controllo verde
Link copiato negli appunti

L'evoluzione del rilevamento di oggetti e Ultralytics'YOLO Modelli

Unisciti a noi per dare uno sguardo all'evoluzione del rilevamento degli oggetti. Ci concentreremo sul modo in cui i modelli YOLO (You Only Look Once) sono progrediti negli ultimi anni.

La computer vision è un sottocampo dell'intelligenza artificiale (AI) che si occupa di insegnare alle macchine a vedere e comprendere immagini e video, in modo simile a come gli esseri umani percepiscono il mondo reale. Mentre il riconoscimento di oggetti o l'identificazione di azioni è una seconda natura per gli esseri umani, questi compiti richiedono tecniche di computer vision specifiche e specializzate quando si tratta di macchine. Ad esempio, un compito chiave della computer vision è il rilevamento degli oggetti, che comporta l'identificazione e la localizzazione di oggetti all'interno di immagini o video. 

Fin dagli anni '60, i ricercatori hanno lavorato per migliorare il modo in cui i computer possono rilevare gli oggetti. I primi metodi, come il template matching, consistevano nel far scorrere un modello predefinito su un'immagine per trovare le corrispondenze. Pur essendo innovativi, questi approcci si scontravano con le variazioni di dimensioni, orientamento e illuminazione degli oggetti. Oggi disponiamo di modelli avanzati come Ultralytics YOLO11 che possono rilevare anche oggetti piccoli e parzialmente nascosti, noti come oggetti occlusi, con una precisione impressionante.

Mentre la computer vision continua a evolversi, è importante guardare indietro a come si sono sviluppate queste tecnologie. In questo articolo esploreremo l'evoluzione del rilevamento degli oggetti e faremo luce sulla trasformazione dei modelliYOLO (You Only Look Once). Iniziamo!

Le origini della computer vision

Prima di immergerci nel rilevamento degli oggetti, diamo un'occhiata a come è nata la computer vision. Le origini della computer vision risalgono alla fine degli anni '50 e all'inizio degli anni '60, quando gli scienziati iniziarono a esplorare il modo in cui il cervello elabora le informazioni visive. In alcuni esperimenti con i gatti, i ricercatori David Hubel e Torsten Wiesel scoprirono che il cervello reagisce a schemi semplici come bordi e linee. Da qui è nata l'idea dell'estrazione delle caratteristiche: il concetto che i sistemi visivi individuano e riconoscono le caratteristiche di base delle immagini, come i bordi, prima di passare a modelli più complessi.

Figura 1. Imparare come il cervello di un gatto reagisce alle barre luminose ha aiutato a sviluppare l'estrazione di caratteristiche nella computer vision.

Nello stesso periodo emerse una nuova tecnologia in grado di trasformare le immagini fisiche in formati digitali, suscitando l'interesse per il modo in cui le macchine potevano elaborare le informazioni visive. Nel 1966, il Summer Vision Project del Massachusetts Institute of Technology (MIT) si spinse oltre. Pur non avendo avuto successo, il progetto mirava a creare un sistema in grado di separare il primo piano dallo sfondo delle immagini. Per molti nella comunità della Vision AI, questo progetto segna l'inizio ufficiale della computer vision come campo scientifico.

Capire la storia del rilevamento degli oggetti

Con il progredire della computer vision tra la fine degli anni '90 e l'inizio degli anni 2000, i metodi di rilevamento degli oggetti sono passati da tecniche di base come la corrispondenza dei modelli ad approcci più avanzati. Un metodo molto diffuso è stato Haar Cascade, che è stato ampiamente utilizzato per compiti come il rilevamento dei volti. Funziona scansionando le immagini con una finestra scorrevole, verificando la presenza di caratteristiche specifiche come bordi o texture in ogni sezione dell'immagine e combinando poi queste caratteristiche per rilevare oggetti come i volti. Haar Cascade era molto più veloce dei metodi precedenti.

Figura 2. Utilizzo della cascata di Haar per il rilevamento dei volti.

Oltre a questi, sono stati introdotti anche metodi come l'Istogramma dei Gradienti Orientati (HOG) e le Macchine Vettoriali di Supporto (SVM). L'HOG utilizzava la tecnica della finestra scorrevole per analizzare le variazioni di luce e ombre in piccole sezioni di un'immagine, aiutando a identificare gli oggetti in base alla loro forma. Le SVM classificano poi queste caratteristiche per determinare l'identità dell'oggetto. Questi metodi miglioravano l'accuratezza, ma avevano ancora difficoltà negli ambienti reali ed erano più lenti rispetto alle tecniche odierne.

La necessità di rilevare gli oggetti in tempo reale

Negli anni 2010, l'ascesa del deep learning e delle reti neurali convoluzionali (CNN) ha portato un importante cambiamento nel rilevamento degli oggetti. Le CNN hanno permesso ai computer di apprendere automaticamente caratteristiche importanti da grandi quantità di dati, rendendo il rilevamento molto più accurato. 

I primi modelli come R-CNN (Region-based Convolutional Neural Networks) hanno rappresentato un grande miglioramento in termini di precisione, aiutando a identificare gli oggetti in modo più accurato rispetto ai metodi precedenti. 

Tuttavia, questi modelli erano lenti perché elaboravano le immagini in più fasi, rendendoli poco pratici per le applicazioni in tempo reale in settori come le auto a guida autonoma o la videosorveglianza.

Con l'obiettivo di accelerare i tempi, sono stati sviluppati modelli più efficienti. Modelli come Fast R-CNN e Faster R-CNN hanno contribuito a perfezionare la scelta delle regioni di interesse e a ridurre il numero di passaggi necessari per il rilevamento. Sebbene questo rendesse più veloce il rilevamento degli oggetti, non era ancora abbastanza rapido per molte applicazioni del mondo reale che necessitavano di risultati immediati. La crescente domanda di rilevamento in tempo reale ha spinto a sviluppare soluzioni ancora più veloci ed efficienti, in grado di bilanciare velocità e precisione.

Figura 3. Confronto tra le velocità di R-CNN, R-CNN veloce e R-CNN più veloce.

YOLO Modelli (You Only Look Once): Un'importante pietra miliare

YOLO è un modello di rilevamento degli oggetti che ha ridefinito la computer vision consentendo il rilevamento in tempo reale di più oggetti in immagini e video, rendendolo unico rispetto ai metodi di rilevamento precedenti. Invece di analizzare ogni singolo oggetto rilevato, l'architettura diYOLO tratta il rilevamento degli oggetti come un'unica attività, prevedendo sia la posizione che la classe degli oggetti in un'unica soluzione grazie alle CNN. 

Il modello funziona dividendo un'immagine in una griglia, con ogni parte responsabile del rilevamento degli oggetti nella rispettiva area. Fa previsioni multiple per ogni sezione e filtra i risultati meno sicuri, mantenendo solo quelli accurati. 

Figura 4. Panoramica del funzionamento di YOLO .

L'introduzione di YOLO nelle applicazioni di computer vision ha reso il rilevamento degli oggetti molto più veloce ed efficiente rispetto ai modelli precedenti. Grazie alla sua velocità e precisione, YOLO è diventato rapidamente una scelta popolare per le soluzioni in tempo reale in settori come la produzione, la sanità e la robotica.

Un altro aspetto importante da sottolineare è che, essendo YOLO open-source, gli sviluppatori e i ricercatori hanno potuto migliorarlo continuamente, portando a versioni ancora più avanzate.

Il percorso da YOLO a YOLO11

YOLO sono migliorati costantemente nel tempo, sfruttando i progressi di ogni versione. Oltre a migliorare le prestazioni, questi miglioramenti hanno reso i modelli più facili da usare per persone con diversi livelli di esperienza tecnica.

Ad esempio, quando è stato introdotto Ultralytics YOLOv5 è stata introdotta, l'implementazione dei modelli è diventata più semplice grazie a PyTorchconsentendo a un maggior numero di utenti di lavorare con l'intelligenza artificiale avanzata. Ha unito precisione e usabilità, dando la possibilità a un maggior numero di persone di implementare il rilevamento degli oggetti senza dover essere esperti di codifica.

Figura 5. Evoluzione dei modelli di YOLO .

Ultralytics YOLOv8 ha continuato a progredire aggiungendo il supporto per attività come la segmentazione delle istanze e rendendo i modelli più flessibili. È diventato più facile utilizzare YOLO sia per le applicazioni di base che per quelle più complesse, rendendolo utile in una vasta gamma di scenari.

Con l'ultimo modello, Ultralytics YOLO11sono state apportate ulteriori ottimizzazioni. Riducendo il numero di parametri e migliorando la precisione, ora è più efficiente per le attività in tempo reale. Che tu sia uno sviluppatore esperto o alle prime armi con l'intelligenza artificiale, YOLO11 offre un approccio avanzato al rilevamento degli oggetti che è facilmente accessibile.

Conoscere YOLO11: nuove funzionalità e miglioramenti

YOLO11lanciato all'evento ibrido annuale di Ultralytics, YOLO Vision 2024 (YV24), supporta le stesse attività di computer vision di YOLOv8, come il rilevamento di oggetti, la segmentazione di istanze, la classificazione di immagini e la stima di pose. Gli utenti possono quindi passare facilmente a questo nuovo modello senza dover modificare i propri flussi di lavoro. Inoltre, l'architettura aggiornata di YOLO11rende le previsioni ancora più precise. Infatti, YOLO11m raggiunge una precisione media superiore (mAP) sul dataset COCO con il 22% di parametri in meno rispetto a YOLOv8m.

YOLO11 è anche costruito per funzionare in modo efficiente su una serie di piattaforme, dagli smartphone e altri dispositivi edge ai sistemi cloud più potenti. Questa flessibilità garantisce prestazioni uniformi su diverse configurazioni hardware per le applicazioni in tempo reale. Inoltre, YOLO11 è più veloce ed efficiente, riducendo i costi di calcolo e accelerando i tempi di inferenza. Sia che si utilizzi il pacchettoUltralytics Python o l'HUB senza codice Ultralytics , è facile da integrare YOLO11 nei tuoi flussi di lavoro esistenti.

Il futuro dei modelli di YOLO e del rilevamento degli oggetti

L'impatto del rilevamento avanzato degli oggetti sulle applicazioni in tempo reale e sull'AI di frontiera si fa già sentire in tutti i settori. Poiché settori come il petrolio e il gas, la sanità e la vendita al dettaglio si affidano sempre più all'IA, la richiesta di un rilevamento veloce e preciso degli oggetti continua a crescere. YOLO11 mira a rispondere a questa richiesta consentendo un rilevamento ad alte prestazioni anche su dispositivi con potenza di calcolo limitata. 

Con la crescita dell'intelligenza artificiale, è probabile che i modelli di rilevamento degli oggetti come YOLO11 diventino ancora più essenziali per prendere decisioni in tempo reale in ambienti in cui velocità e precisione sono fondamentali. Grazie ai continui miglioramenti nella progettazione e nell'adattabilità, il futuro del rilevamento degli oggetti sembra destinato a portare ancora più innovazioni in una varietà di applicazioni.

Punti di forza

Il rilevamento degli oggetti ha fatto molta strada, evolvendosi da metodi semplici alle tecniche avanzate di deep-learning che vediamo oggi. I modelli YOLO sono stati al centro di questo progresso, offrendo un rilevamento in tempo reale più veloce e preciso in diversi settori. YOLO11 si basa su questa eredità, migliorando l'efficienza, riducendo i costi di calcolo e aumentando la precisione, rendendolo una scelta affidabile per una varietà di applicazioni in tempo reale. Con i continui progressi nel campo dell'intelligenza artificiale e della computer vision, il futuro del rilevamento degli oggetti appare luminoso, con spazio per ulteriori miglioramenti in termini di velocità, precisione e adattabilità.

Sei curioso di conoscere l'IA? Resta in contatto con la nostra comunità per continuare a imparare! Dai un'occhiata al nostro repository GitHub per scoprire come stiamo utilizzando l'IA per creare soluzioni innovative in settori come quello manifatturiero e sanitario. 🚀

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico