I vantaggi di Ultralytics YOLO11 come rilevatore senza ancoraggio

Abirami Vina

5 minuti di lettura

5 dicembre 2024

Capire come Ultralytics YOLO11 supporta il rilevamento di oggetti senza ancoraggio e i vantaggi che questo modello di architettura apporta a varie applicazioni.

Se diamo uno sguardo alla storia dei modelli di Vision AI, il concetto di rilevamento degli oggetti - un'attività fondamentale della computer vision che prevede l'identificazione e la localizzazione di oggetti all'interno di un'immagine o di un video - esiste fin dagli anni '60. Tuttavia, la ragione principale della sua importanza nelle innovazioni all'avanguardia di oggi è che le tecniche di rilevamento degli oggetti e le architetture dei modelli sono progredite e migliorate rapidamente da allora. 

In un precedente articolo abbiamo parlato dell'evoluzione del rilevamento degli oggetti e del percorso che ha portato ai modelli YOLO di Ultralytics. Oggi ci concentreremo sull'esplorazione di una tappa più specifica di questo percorso: il passaggio dai rilevatori basati su ancore a quelli senza ancore. 

I rilevatori basati sulle ancore si basano su caselle predefinite, chiamate "ancore", per prevedere la posizione degli oggetti in un'immagine. I rilevatori privi di ancore, invece, saltano questi riquadri predefiniti e predicono direttamente la posizione degli oggetti.

Sebbene questo cambiamento possa sembrare semplice e logico, in realtà ha portato a notevoli miglioramenti nell'accuratezza e nell'efficienza del rilevamento degli oggetti. In questo articolo capiremo come i rilevatori privi di ancoraggio hanno ridisegnato la computer vision grazie a progressi come Ultralytics YOLO11.

Cosa sono i rilevatori basati sull'ancoraggio?

I rilevatori basati su ancore utilizzano caselle predefinite, note come ancore, per aiutare a localizzare gli oggetti in un'immagine. Si pensi a queste ancore come a una griglia di scatole di dimensioni e forme diverse posizionate sull'immagine. Il modello regola quindi queste caselle per adattarle agli oggetti rilevati. Ad esempio, se il modello identifica un'automobile, modificherà il riquadro di ancoraggio per adattarlo più accuratamente alla posizione e alle dimensioni dell'auto.

Ogni ancoraggio è associato a un possibile oggetto nell'immagine e, durante l'addestramento, il modello impara a modificare le caselle di ancoraggio per adattarle meglio alla posizione, alle dimensioni e alle proporzioni dell'oggetto. In questo modo il modello è in grado di rilevare gli oggetti in diverse scale e orientamenti. Tuttavia, la selezione del giusto set di caselle di ancoraggio può richiedere molto tempo e il processo di messa a punto può essere soggetto a errori.

__wf_reserved_inherit
Figura 1. Che cos'è un Anchor Box?

Sebbene i rilevatori basati sulle ancore, come YOLOv4, abbiano funzionato bene in molte applicazioni, presentano alcuni svantaggi. Ad esempio, le caselle di ancoraggio non sempre si allineano bene con oggetti di forme o dimensioni diverse, rendendo più difficile per il modello rilevare oggetti piccoli o di forma irregolare. Il processo di selezione e messa a punto delle dimensioni delle caselle di ancoraggio può inoltre richiedere molto tempo e un notevole sforzo manuale. Inoltre, i modelli basati sulle ancore spesso hanno difficoltà a rilevare oggetti occlusi o sovrapposti, poiché le caselle predefinite potrebbero non adattarsi bene a questi scenari più complessi.

Il passaggio al rilevamento di oggetti senza ancoraggio

I rilevatori anchor-free hanno iniziato a guadagnare attenzione nel 2018 con modelli come CornerNet e CenterNet, che hanno adottato un approccio nuovo al rilevamento degli oggetti eliminando la necessità di scatole di ancoraggio predefinite. A differenza dei modelli tradizionali che si basano su caselle di ancoraggio di diverse dimensioni e forme per prevedere la posizione degli oggetti, i modelli anchor-free prevedono direttamente la posizione degli oggetti. Si concentrano su punti o caratteristiche chiave dell'oggetto, come il centro, semplificando il processo di rilevamento e rendendolo più rapido e accurato.

Ecco come funzionano in genere i modelli senza ancoraggio:

  • Rilevamento del punto chiave: Invece di utilizzare caselle predefinite, alcuni modelli identificano punti importanti su un oggetto, come il centro o angoli specifici. Questi punti chiave aiutano i modelli a capire dove si trova l'oggetto e quanto è grande.
  • Centro previsione: Alcuni modelli si concentrano sulla previsione del centro di un oggetto. Una volta individuato il centro, il modello può prevedere le dimensioni e la posizione dell'intero oggetto.
  • Regressione di heatmap: Molti modelli privi di ancore utilizzano le heatmap, dove ogni pixel rappresenta la possibile posizione di un oggetto. I valori più forti delle heatmap indicano una maggiore fiducia nella presenza di un oggetto in quel punto.
__wf_reserved_inherit
Figura 2. Rilevamento basato su ancore e rilevamento senza ancore.

Poiché i modelli senza ancoraggio non si basano su caselle di ancoraggio, hanno un design più semplice. Ciò significa che sono più efficienti dal punto di vista computazionale. Non dovendo elaborare più caselle di ancoraggio, possono rilevare gli oggetti più rapidamente, un vantaggio importante in applicazioni in tempo reale come la guida autonoma e la videosorveglianza. 

I modelli privi di ancoraggio sono anche molto più adatti a gestire oggetti piccoli, irregolari o occlusi. Poiché si concentrano sul rilevamento dei punti chiave, anziché cercare di adattare le caselle di ancoraggio, sono molto più flessibili. Ciò consente loro di rilevare con precisione gli oggetti in ambienti complessi o disordinati, dove i modelli basati su ancore potrebbero fallire.

Ultralytics YOLO11: un rilevatore senza ancore

Originariamente progettati per la velocità e l'efficienza, i modelli YOLO si sono gradualmente spostati dai metodi basati sulle ancore al rilevamento senza ancore, rendendo i modelli come YOLO11 più veloci, più flessibili e più adatti a un'ampia gamma di applicazioni in tempo reale.

Ecco una rapida occhiata a come si è evoluto il design privo di ancore nelle diverse versioni di YOLO:

  • Ultralitici YOLOv5u: Introdotta la testa Ultralytics Anchor-Free Split, che elimina la necessità di scatole di ancoraggio predefinite. Al contrario, il modello prevede direttamente la posizione degli oggetti nell'immagine, semplificando il processo e migliorando la flessibilità e la velocità.
  • YOLOv6: È stato utilizzato un nuovo metodo chiamato Anchor-Aided Training (AAT), in cui le ancore sono state utilizzate solo durante l'addestramento. Ciò ha permesso al modello di beneficiare della struttura dei metodi basati sulle ancore durante l'addestramento, pur utilizzando il rilevamento senza ancore in fase di esecuzione per una maggiore velocità e adattabilità.
  • Ultralitici YOLOv8: Passaggio completo al rilevamento senza ancore utilizzando la testa Ultralytics Anchor-Free Split. Questo ha reso il modello più veloce e più preciso, soprattutto per gli oggetti piccoli o di forma strana che non si adattano bene alle caselle di ancoraggio.
  • Ultralitici YOLO11: Si basa sull'approccio privo di ancoraggi di YOLOv8 e ottimizza ulteriormente il rilevamento eliminando completamente le caselle di ancoraggio. Il risultato è un rilevamento più rapido e accurato per applicazioni in tempo reale come il monitoraggio del comportamento degli animali e l'analisi della vendita al dettaglio.
__wf_reserved_inherit
Figura 3. Confronto tra Ultralytics YOLOv8 e Ultralytics YOLO11.

Applicazioni reali di YOLO11

Un ottimo esempio dei vantaggi del rilevamento senza ancoraggio con YOLO11 è rappresentato dai veicoli autonomi. Nelle auto a guida autonoma, il rilevamento rapido e accurato di pedoni, altri veicoli e ostacoli è fondamentale per la sicurezza. L'approccio anchor-free di YOLO11 semplifica il processo di rilevamento prevedendo direttamente i punti chiave degli oggetti, come il centro di un pedone o i confini di un altro veicolo, anziché affidarsi a caselle di ancoraggio predefinite. 

__wf_reserved_inherit
Figura 4. Vantaggi del rilevamento senza ancore in YOLO11 (immagine dell'autore).

YOLO11 non ha bisogno di regolare o adattare una griglia di ancore a ogni oggetto, il che può essere computazionalmente costoso e lento. Si concentra invece sulle caratteristiche principali, rendendole più veloci ed efficienti. Ad esempio, quando un pedone entra nel percorso del veicolo, YOLO11 è in grado di identificare rapidamente la sua posizione individuando i punti chiave, anche se la persona è parzialmente nascosta o in movimento. La capacità di adattarsi a forme e dimensioni diverse senza scatole di ancoraggio consente a YOLO11 di rilevare gli oggetti in modo più affidabile e a velocità più elevate, il che è fondamentale per prendere decisioni in tempo reale nei sistemi di guida autonoma.

Tra le altre applicazioni in cui si distinguono le capacità di YOLO11 di non essere ancorato vi sono le seguenti:

  • Gestione della vendita al dettaglio e dell'inventario: YOLO11 facilita il monitoraggio dei prodotti sugli scaffali, anche quando sono impilati o parzialmente bloccati. Ciò contribuisce a un monitoraggio più rapido e accurato dell'inventario e riduce gli errori.
  • Immagini mediche: YOLO11 è efficace anche nel settore sanitario, dove può rilevare tumori o altre anomalie nelle scansioni mediche. La sua capacità di lavorare con oggetti di forma irregolare contribuisce a migliorare la precisione nella diagnosi di condizioni complesse.
  • Monitoraggio della fauna selvatica: Nella ricerca sulla fauna selvatica, YOLO11 è in grado di seguire gli animali in foreste fitte o terreni difficili, aiutando i ricercatori a monitorare il comportamento o a proteggere le specie in pericolo.
  • Analisi dello sport: YOLO11 può essere utilizzato per tracciare i giocatori, i movimenti della palla o altri elementi in tempo reale durante gli eventi sportivi, per fornire preziose informazioni a squadre, allenatori ed emittenti.

Considerazioni da fare quando si lavora con modelli senza ancoraggio

Sebbene i modelli privi di ancoraggio come YOLO11 offrano molti vantaggi, presentano alcune limitazioni. Una delle principali considerazioni pratiche da fare è che anche i modelli privi di ancoraggio possono avere difficoltà in caso di occlusioni o di oggetti fortemente sovrapposti. Il motivo è che la computer vision mira a replicare la visione umana e, proprio come noi a volte fatichiamo a identificare gli oggetti occlusi, i modelli di intelligenza artificiale possono affrontare sfide simili.

Un altro fattore interessante è legato all'elaborazione delle previsioni del modello. Sebbene l'architettura dei modelli senza ancore sia più semplice di quella basata sulle ancore, in alcuni casi si rende necessario un ulteriore affinamento. Ad esempio, possono essere necessarie tecniche di post-elaborazione come la soppressione non massimale (NMS) per ripulire le previsioni che si sovrappongono o migliorare l'accuratezza in scene affollate.

Ancorarsi al futuro dell'intelligenza artificiale con YOLO11

Il passaggio dal rilevamento basato sulle ancore a quello senza ancore ha rappresentato un progresso significativo nel rilevamento degli oggetti. Con i modelli privi di ancoraggio come YOLO11, il processo viene semplificato, con conseguenti miglioramenti in termini di precisione e velocità.

Grazie a YOLO11, abbiamo visto come il rilevamento di oggetti senza ancoraggio eccelle in applicazioni in tempo reale come le auto a guida autonoma, la videosorveglianza e l'imaging medico, dove il rilevamento rapido e preciso è fondamentale. Questo approccio consente a YOLO11 di adattarsi più facilmente a oggetti di dimensioni diverse e a scene complesse, fornendo prestazioni migliori in ambienti diversi.

Con la continua evoluzione della computer vision, il rilevamento degli oggetti diventerà sempre più veloce, flessibile ed efficiente.

Esplorate il nostro repository GitHub e unitevi alla nostra coinvolgente comunità per rimanere aggiornati su tutto ciò che riguarda l'IA. Scoprite come Vision AI sta influenzando settori come la produzione e l'agricoltura.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti