Controllo verde
Link copiato negli appunti

I vantaggi di Ultralytics YOLO11 come rilevatore senza ancoraggio

Scopri come Ultralytics YOLO11 supporta il rilevamento di oggetti senza ancoraggio e i vantaggi che questo modello di architettura apporta a diverse applicazioni.

Se diamo uno sguardo alla storia dei modelli di Vision AI, il concetto di rilevamento degli oggetti - un'attività fondamentale della computer vision che prevede l'identificazione e la localizzazione di oggetti all'interno di un'immagine o di un video - esiste fin dagli anni '60. Tuttavia, la ragione principale della sua importanza nelle innovazioni all'avanguardia di oggi è che le tecniche di rilevamento degli oggetti e le architetture dei modelli sono progredite e migliorate rapidamente da allora. 

In un precedente articolo abbiamo parlato dell'evoluzione del rilevamento degli oggetti e del percorso che ha portato ai modelli Ultralytics YOLO . Oggi ci concentreremo sull'esplorazione di una tappa più specifica di questo percorso: il passaggio dai rilevatori basati su ancore a quelli senza ancore. 

I rilevatori basati sulle ancore si basano su caselle predefinite, chiamate "ancore", per prevedere la posizione degli oggetti in un'immagine. Al contrario, i rilevatori senza ancore saltano questi riquadri predefiniti e prevedono direttamente la posizione degli oggetti.

Sebbene questo cambiamento possa sembrare semplice e logico, in realtà ha portato a notevoli miglioramenti nell'accuratezza e nell'efficienza del rilevamento degli oggetti. In questo articolo capiremo come i rilevatori privi di ancoraggio hanno rimodellato la computer vision grazie a progressi quali Ultralytics YOLO11.

Cosa sono i rilevatori ad ancora?

I rilevatori basati sulle ancore utilizzano delle caselle predefinite, note come ancore, per aiutare a localizzare gli oggetti in un'immagine. Pensa a queste ancore come a una griglia di scatole di diverse dimensioni e forme posizionate sull'immagine. Il modello regola poi queste caselle per adattarle agli oggetti che rileva. Ad esempio, se il modello identifica un'auto, modificherà il riquadro di ancoraggio per adattarlo alla posizione e alle dimensioni dell'auto in modo più accurato.

Ogni ancoraggio è associato a un possibile oggetto nell'immagine e, durante l'addestramento, il modello impara a modificare le caselle di ancoraggio per adattarle meglio alla posizione, alle dimensioni e alle proporzioni dell'oggetto. In questo modo il modello è in grado di rilevare gli oggetti in diverse scale e orientamenti. Tuttavia, la selezione del giusto set di caselle di ancoraggio può richiedere molto tempo e il processo di messa a punto può essere soggetto a errori.

Figura 1. Che cos'è un Anchor Box?

Sebbene i rilevatori basati sulle ancore, come YOLOv4, abbiano funzionato bene in molte applicazioni, presentano alcuni svantaggi. Ad esempio, le caselle di ancoraggio non sempre si allineano bene con oggetti di forme o dimensioni diverse, rendendo più difficile per il modello rilevare oggetti piccoli o di forma irregolare. Il processo di selezione e messa a punto delle dimensioni delle caselle di ancoraggio può anche essere lungo e richiede un notevole sforzo manuale. Inoltre, i modelli basati sulle ancore spesso hanno difficoltà a rilevare oggetti occlusi o sovrapposti, poiché le caselle predefinite potrebbero non adattarsi bene a questi scenari più complessi.

Il passaggio al rilevamento di oggetti senza ancoraggio

I rilevatori anchor-free hanno iniziato a guadagnare attenzione nel 2018 con modelli come CornerNet e CenterNet, che hanno adottato un approccio nuovo al rilevamento degli oggetti eliminando la necessità di scatole di ancoraggio predefinite. A differenza dei modelli tradizionali che si basano su caselle di ancoraggio di diverse dimensioni e forme per prevedere la posizione degli oggetti, i modelli anchor-free prevedono direttamente la posizione degli oggetti. Si concentrano su punti o caratteristiche chiave dell'oggetto, come il centro, semplificando il processo di rilevamento e rendendolo più veloce e accurato.

Ecco come funzionano i modelli senza ancoraggio:

  • Rilevamento del punto chiave: Invece di utilizzare caselle predefinite, alcuni modelli identificano punti importanti su un oggetto, come il centro o angoli specifici. Questi punti chiave aiutano i modelli a capire dove si trova l'oggetto e quanto è grande.
  • Centro previsione: Alcuni modelli si concentrano sulla previsione del centro di un oggetto. Una volta individuato il centro, il modello può prevedere le dimensioni e la posizione dell'intero oggetto.
  • Regressione heatmap: Molti modelli privi di ancore utilizzano le heatmap, dove ogni pixel rappresenta una possibile posizione di un oggetto. I valori più forti delle heatmap indicano una maggiore fiducia nella presenza di un oggetto in quel punto.
Figura 2. Rilevamento basato su ancore e rilevamento senza ancore.

Poiché i modelli senza ancoraggio non si basano su caselle di ancoraggio, hanno un design più semplice. Ciò significa che sono più efficienti dal punto di vista computazionale. Non dovendo elaborare più caselle di ancoraggio, possono rilevare gli oggetti più rapidamente, un vantaggio importante in applicazioni in tempo reale come la guida autonoma e la videosorveglianza. 

I modelli senza ancore sono anche molto più adatti a gestire oggetti piccoli, irregolari o occlusi. Poiché si concentrano sul rilevamento dei punti chiave anziché cercare di adattare le caselle di ancoraggio, sono molto più flessibili. Questo permette loro di rilevare con precisione gli oggetti in ambienti complessi o disordinati, dove i modelli basati sulle ancore potrebbero fallire.

Ultralytics YOLO11: Un rilevatore senza ancore

Originariamente progettati per la velocità e l'efficienza, i modelli di YOLO si sono gradualmente spostati dai metodi basati sulle ancore al rilevamento senza ancore, rendendo modelli come YOLO11 più veloci, più flessibili e più adatti a un'ampia gamma di applicazioni in tempo reale.

Ecco una rapida occhiata a come si è evoluto il design senza ancore nelle diverse versioni di YOLO :

  • Ultralytics YOLOv5u: È stata introdotta la testa Anchor-Free Split Ultralytics , che elimina la necessità di scatole di ancoraggio predefinite. Al contrario, il modello prevede direttamente la posizione degli oggetti nell'immagine, semplificando il processo e migliorando la flessibilità e la velocità.
  • YOLOv6: È stato utilizzato un nuovo metodo chiamato Anchor-Aided Training (AAT), in cui le ancore vengono utilizzate solo durante l'addestramento. Questo ha permesso al modello di beneficiare della struttura dei metodi basati sulle ancore durante l'addestramento, pur continuando a utilizzare il rilevamento senza ancore in fase di esecuzione per una maggiore velocità e adattabilità.
  • Ultralytics YOLOv8: È stato completamente adottato il rilevamento senza ancore, utilizzando la testa Anchor-Free Split Ultralytics . Questo ha reso il modello più veloce e preciso, soprattutto per gli oggetti piccoli o di forma strana che non si adattano bene alle caselle di ancoraggio.
  • Ultralytics YOLO11: Si basa sull'approccio senza ancore di YOLOv8e ottimizza ulteriormente il rilevamento eliminando completamente le caselle di ancoraggio. Questo si traduce in un rilevamento più rapido e accurato per applicazioni in tempo reale come il monitoraggio del comportamento degli animali e l'analisi del commercio al dettaglio.
Figura 3. Confronto tra Ultralytics YOLOv8 e Ultralytics YOLO11 .

Applicazioni del mondo reale di YOLO11

Un ottimo esempio dei vantaggi del rilevamento senza ancoraggio con YOLO11 è rappresentato dai veicoli autonomi. Nelle auto a guida autonoma, il rilevamento rapido e accurato di pedoni, altri veicoli e ostacoli è fondamentale per la sicurezza. YOLO11 L'approccio anchor-free di semplifica il processo di rilevamento prevedendo direttamente i punti chiave degli oggetti, come il centro di un pedone o i confini di un altro veicolo, invece di affidarsi a caselle di ancoraggio predefinite. 

Figura 4. Vantaggi del rilevamento senza ancore in YOLO11 (Immagine dell'autore).

YOLO11 non ha bisogno di regolare o adattare una griglia di ancore a ogni oggetto, il che può essere computazionalmente costoso e lento. Invece, si concentra sulle caratteristiche principali, rendendole più veloci ed efficienti. Ad esempio, quando un pedone entra nel percorso del veicolo, YOLO11 è in grado di identificare rapidamente la sua posizione individuando i punti chiave, anche se la persona è parzialmente nascosta o in movimento. La capacità di adattarsi a forme e dimensioni diverse, senza caselle di ancoraggio, permette a YOLO11 di rilevare gli oggetti in modo più affidabile e a velocità più elevate, il che è fondamentale per prendere decisioni in tempo reale nei sistemi di guida autonoma.

Tra le altre applicazioni in cui le capacità di YOLO11di non avere ancoraggi si fanno notare ci sono:

  • Gestione del commercio al dettaglio e dell'inventario: YOLO11 facilita il monitoraggio dei prodotti sugli scaffali, anche quando sono impilati o parzialmente bloccati. Questo aiuta a monitorare l'inventario in modo più rapido e preciso e a ridurre gli errori.
  • Imaging medico: YOLO11 è efficace anche in campo sanitario, dove può rilevare tumori o altre anomalie nelle scansioni mediche. La sua capacità di lavorare con oggetti di forma irregolare aiuta a migliorare la precisione nella diagnosi di condizioni complesse.
  • Monitoraggio della fauna selvatica: Nella ricerca sulla fauna selvatica, YOLO11 può seguire gli animali nelle foreste più fitte o su terreni difficili, aiutando i ricercatori a monitorare il comportamento o a proteggere le specie in pericolo.
  • Analisi dello sport: YOLO11 può essere utilizzato per tracciare i giocatori, i movimenti della palla o altri elementi in tempo reale durante gli eventi sportivi per fornire preziose informazioni a squadre, allenatori ed emittenti.

Considerazioni da fare quando si lavora con modelli senza ancoraggio

Sebbene i modelli senza ancoraggio come YOLO11 offrano molti vantaggi, presentano alcune limitazioni. Una delle principali considerazioni pratiche da fare è che anche i modelli privi di ancoraggio possono avere difficoltà in caso di occlusioni o oggetti molto sovrapposti. Il motivo è che la computer vision mira a replicare la visione umana e, proprio come noi a volte fatichiamo a identificare gli oggetti occlusi, i modelli di intelligenza artificiale possono affrontare sfide simili.

Un altro fattore interessante è legato all'elaborazione delle previsioni del modello. Sebbene l'architettura dei modelli senza ancore sia più semplice di quella basata sulle ancore, in alcuni casi si rende necessario un ulteriore perfezionamento. Ad esempio, possono essere necessarie tecniche di post-elaborazione come la soppressione non massimale (NMS) per ripulire le previsioni che si sovrappongono o per migliorare l'accuratezza in scene affollate.

Ancorarsi al futuro dell'IA con YOLO11

Il passaggio dal rilevamento basato sulle ancore a quello senza ancore ha rappresentato un progresso significativo nel rilevamento degli oggetti. Con i modelli privi di ancore come YOLO11, il processo è semplificato, con conseguenti miglioramenti sia in termini di accuratezza che di velocità.

Grazie a YOLO11, abbiamo visto come il rilevamento di oggetti senza ancoraggio eccelle in applicazioni in tempo reale come le auto a guida autonoma, la videosorveglianza e l'imaging medico, dove il rilevamento rapido e preciso è fondamentale. Questo approccio consente a YOLO11 di adattarsi più facilmente alle dimensioni variabili degli oggetti e alle scene complesse, offrendo prestazioni migliori in ambienti diversi.

Con la continua evoluzione della computer vision, il rilevamento degli oggetti diventerà sempre più veloce, flessibile ed efficiente.

Esplora il nostro repository GitHub e unisciti alla nostra coinvolgente community per rimanere aggiornato su tutto ciò che riguarda l'IA. Scopri come Vision AI sta influenzando settori come la produzione e l'agricoltura.

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico