I vantaggi di Ultralytics YOLO11 come rilevatore senza ancoraggio

5 dicembre 2024
Capire come Ultralytics YOLO11 supporta il rilevamento di oggetti senza ancoraggio e i vantaggi che questo modello di architettura apporta a varie applicazioni.
%2525202.png)
5 dicembre 2024
Capire come Ultralytics YOLO11 supporta il rilevamento di oggetti senza ancoraggio e i vantaggi che questo modello di architettura apporta a varie applicazioni.
Se diamo uno sguardo alla storia dei modelli di Vision AI, il concetto di rilevamento degli oggetti - un'attività fondamentale della computer vision che prevede l'identificazione e la localizzazione di oggetti all'interno di un'immagine o di un video - esiste fin dagli anni '60. Tuttavia, la ragione principale della sua importanza nelle innovazioni all'avanguardia di oggi è che le tecniche di rilevamento degli oggetti e le architetture dei modelli sono progredite e migliorate rapidamente da allora.
In un precedente articolo abbiamo parlato dell'evoluzione del rilevamento degli oggetti e del percorso che ha portato ai modelli YOLO di Ultralytics. Oggi ci concentreremo sull'esplorazione di una tappa più specifica di questo percorso: il passaggio dai rilevatori basati su ancore a quelli senza ancore.
I rilevatori basati sulle ancore si basano su caselle predefinite, chiamate "ancore", per prevedere la posizione degli oggetti in un'immagine. I rilevatori privi di ancore, invece, saltano questi riquadri predefiniti e predicono direttamente la posizione degli oggetti.
Sebbene questo cambiamento possa sembrare semplice e logico, in realtà ha portato a notevoli miglioramenti nell'accuratezza e nell'efficienza del rilevamento degli oggetti. In questo articolo capiremo come i rilevatori privi di ancoraggio hanno ridisegnato la computer vision grazie a progressi come Ultralytics YOLO11.
I rilevatori basati su ancore utilizzano caselle predefinite, note come ancore, per aiutare a localizzare gli oggetti in un'immagine. Si pensi a queste ancore come a una griglia di scatole di dimensioni e forme diverse posizionate sull'immagine. Il modello regola quindi queste caselle per adattarle agli oggetti rilevati. Ad esempio, se il modello identifica un'automobile, modificherà il riquadro di ancoraggio per adattarlo più accuratamente alla posizione e alle dimensioni dell'auto.
Ogni ancoraggio è associato a un possibile oggetto nell'immagine e, durante l'addestramento, il modello impara a modificare le caselle di ancoraggio per adattarle meglio alla posizione, alle dimensioni e alle proporzioni dell'oggetto. In questo modo il modello è in grado di rilevare gli oggetti in diverse scale e orientamenti. Tuttavia, la selezione del giusto set di caselle di ancoraggio può richiedere molto tempo e il processo di messa a punto può essere soggetto a errori.
Sebbene i rilevatori basati sulle ancore, come YOLOv4, abbiano funzionato bene in molte applicazioni, presentano alcuni svantaggi. Ad esempio, le caselle di ancoraggio non sempre si allineano bene con oggetti di forme o dimensioni diverse, rendendo più difficile per il modello rilevare oggetti piccoli o di forma irregolare. Il processo di selezione e messa a punto delle dimensioni delle caselle di ancoraggio può inoltre richiedere molto tempo e un notevole sforzo manuale. Inoltre, i modelli basati sulle ancore spesso hanno difficoltà a rilevare oggetti occlusi o sovrapposti, poiché le caselle predefinite potrebbero non adattarsi bene a questi scenari più complessi.
I rilevatori anchor-free hanno iniziato a guadagnare attenzione nel 2018 con modelli come CornerNet e CenterNet, che hanno adottato un approccio nuovo al rilevamento degli oggetti eliminando la necessità di scatole di ancoraggio predefinite. A differenza dei modelli tradizionali che si basano su caselle di ancoraggio di diverse dimensioni e forme per prevedere la posizione degli oggetti, i modelli anchor-free prevedono direttamente la posizione degli oggetti. Si concentrano su punti o caratteristiche chiave dell'oggetto, come il centro, semplificando il processo di rilevamento e rendendolo più rapido e accurato.
Ecco come funzionano in genere i modelli senza ancoraggio:
Poiché i modelli senza ancoraggio non si basano su caselle di ancoraggio, hanno un design più semplice. Ciò significa che sono più efficienti dal punto di vista computazionale. Non dovendo elaborare più caselle di ancoraggio, possono rilevare gli oggetti più rapidamente, un vantaggio importante in applicazioni in tempo reale come la guida autonoma e la videosorveglianza.
I modelli privi di ancoraggio sono anche molto più adatti a gestire oggetti piccoli, irregolari o occlusi. Poiché si concentrano sul rilevamento dei punti chiave, anziché cercare di adattare le caselle di ancoraggio, sono molto più flessibili. Ciò consente loro di rilevare con precisione gli oggetti in ambienti complessi o disordinati, dove i modelli basati su ancore potrebbero fallire.
Originariamente progettati per la velocità e l'efficienza, i modelli YOLO si sono gradualmente spostati dai metodi basati sulle ancore al rilevamento senza ancore, rendendo i modelli come YOLO11 più veloci, più flessibili e più adatti a un'ampia gamma di applicazioni in tempo reale.
Ecco una rapida occhiata a come si è evoluto il design privo di ancore nelle diverse versioni di YOLO:
Un ottimo esempio dei vantaggi del rilevamento senza ancoraggio con YOLO11 è rappresentato dai veicoli autonomi. Nelle auto a guida autonoma, il rilevamento rapido e accurato di pedoni, altri veicoli e ostacoli è fondamentale per la sicurezza. L'approccio anchor-free di YOLO11 semplifica il processo di rilevamento prevedendo direttamente i punti chiave degli oggetti, come il centro di un pedone o i confini di un altro veicolo, anziché affidarsi a caselle di ancoraggio predefinite.
YOLO11 non ha bisogno di regolare o adattare una griglia di ancore a ogni oggetto, il che può essere computazionalmente costoso e lento. Si concentra invece sulle caratteristiche principali, rendendole più veloci ed efficienti. Ad esempio, quando un pedone entra nel percorso del veicolo, YOLO11 è in grado di identificare rapidamente la sua posizione individuando i punti chiave, anche se la persona è parzialmente nascosta o in movimento. La capacità di adattarsi a forme e dimensioni diverse senza scatole di ancoraggio consente a YOLO11 di rilevare gli oggetti in modo più affidabile e a velocità più elevate, il che è fondamentale per prendere decisioni in tempo reale nei sistemi di guida autonoma.
Tra le altre applicazioni in cui si distinguono le capacità di YOLO11 di non essere ancorato vi sono le seguenti:
Sebbene i modelli privi di ancoraggio come YOLO11 offrano molti vantaggi, presentano alcune limitazioni. Una delle principali considerazioni pratiche da fare è che anche i modelli privi di ancoraggio possono avere difficoltà in caso di occlusioni o di oggetti fortemente sovrapposti. Il motivo è che la computer vision mira a replicare la visione umana e, proprio come noi a volte fatichiamo a identificare gli oggetti occlusi, i modelli di intelligenza artificiale possono affrontare sfide simili.
Un altro fattore interessante è legato all'elaborazione delle previsioni del modello. Sebbene l'architettura dei modelli senza ancore sia più semplice di quella basata sulle ancore, in alcuni casi si rende necessario un ulteriore affinamento. Ad esempio, possono essere necessarie tecniche di post-elaborazione come la soppressione non massimale (NMS) per ripulire le previsioni che si sovrappongono o migliorare l'accuratezza in scene affollate.
Il passaggio dal rilevamento basato sulle ancore a quello senza ancore ha rappresentato un progresso significativo nel rilevamento degli oggetti. Con i modelli privi di ancoraggio come YOLO11, il processo viene semplificato, con conseguenti miglioramenti in termini di precisione e velocità.
Grazie a YOLO11, abbiamo visto come il rilevamento di oggetti senza ancoraggio eccelle in applicazioni in tempo reale come le auto a guida autonoma, la videosorveglianza e l'imaging medico, dove il rilevamento rapido e preciso è fondamentale. Questo approccio consente a YOLO11 di adattarsi più facilmente a oggetti di dimensioni diverse e a scene complesse, fornendo prestazioni migliori in ambienti diversi.
Con la continua evoluzione della computer vision, il rilevamento degli oggetti diventerà sempre più veloce, flessibile ed efficiente.
Esplorate il nostro repository GitHub e unitevi alla nostra coinvolgente comunità per rimanere aggiornati su tutto ciò che riguarda l'IA. Scoprite come Vision AI sta influenzando settori come la produzione e l'agricoltura.