Scopri come Ultralytics YOLO11 supporta il rilevamento di oggetti senza ancoraggio e i vantaggi che questo modello di architettura apporta a diverse applicazioni.
Se diamo uno sguardo alla storia dei modelli di Vision AI, il concetto di rilevamento degli oggetti - un'attività fondamentale della computer vision che prevede l'identificazione e la localizzazione di oggetti all'interno di un'immagine o di un video - esiste fin dagli anni '60. Tuttavia, la ragione principale della sua importanza nelle innovazioni all'avanguardia di oggi è che le tecniche di rilevamento degli oggetti e le architetture dei modelli sono progredite e migliorate rapidamente da allora.
In un precedente articolo abbiamo parlato dell'evoluzione del rilevamento degli oggetti e del percorso che ha portato ai modelli Ultralytics YOLO . Oggi ci concentreremo sull'esplorazione di una tappa più specifica di questo percorso: il passaggio dai rilevatori basati su ancore a quelli senza ancore.
I rilevatori basati sulle ancore si basano su caselle predefinite, chiamate "ancore", per prevedere la posizione degli oggetti in un'immagine. Al contrario, i rilevatori senza ancore saltano questi riquadri predefiniti e prevedono direttamente la posizione degli oggetti.
Sebbene questo cambiamento possa sembrare semplice e logico, in realtà ha portato a notevoli miglioramenti nell'accuratezza e nell'efficienza del rilevamento degli oggetti. In questo articolo capiremo come i rilevatori privi di ancoraggio hanno rimodellato la computer vision grazie a progressi quali Ultralytics YOLO11.
I rilevatori basati sulle ancore utilizzano delle caselle predefinite, note come ancore, per aiutare a localizzare gli oggetti in un'immagine. Pensa a queste ancore come a una griglia di scatole di diverse dimensioni e forme posizionate sull'immagine. Il modello regola poi queste caselle per adattarle agli oggetti che rileva. Ad esempio, se il modello identifica un'auto, modificherà il riquadro di ancoraggio per adattarlo alla posizione e alle dimensioni dell'auto in modo più accurato.
Ogni ancoraggio è associato a un possibile oggetto nell'immagine e, durante l'addestramento, il modello impara a modificare le caselle di ancoraggio per adattarle meglio alla posizione, alle dimensioni e alle proporzioni dell'oggetto. In questo modo il modello è in grado di rilevare gli oggetti in diverse scale e orientamenti. Tuttavia, la selezione del giusto set di caselle di ancoraggio può richiedere molto tempo e il processo di messa a punto può essere soggetto a errori.
Sebbene i rilevatori basati sulle ancore, come YOLOv4, abbiano funzionato bene in molte applicazioni, presentano alcuni svantaggi. Ad esempio, le caselle di ancoraggio non sempre si allineano bene con oggetti di forme o dimensioni diverse, rendendo più difficile per il modello rilevare oggetti piccoli o di forma irregolare. Il processo di selezione e messa a punto delle dimensioni delle caselle di ancoraggio può anche essere lungo e richiede un notevole sforzo manuale. Inoltre, i modelli basati sulle ancore spesso hanno difficoltà a rilevare oggetti occlusi o sovrapposti, poiché le caselle predefinite potrebbero non adattarsi bene a questi scenari più complessi.
I rilevatori anchor-free hanno iniziato a guadagnare attenzione nel 2018 con modelli come CornerNet e CenterNet, che hanno adottato un approccio nuovo al rilevamento degli oggetti eliminando la necessità di scatole di ancoraggio predefinite. A differenza dei modelli tradizionali che si basano su caselle di ancoraggio di diverse dimensioni e forme per prevedere la posizione degli oggetti, i modelli anchor-free prevedono direttamente la posizione degli oggetti. Si concentrano su punti o caratteristiche chiave dell'oggetto, come il centro, semplificando il processo di rilevamento e rendendolo più veloce e accurato.
Ecco come funzionano i modelli senza ancoraggio:
Poiché i modelli senza ancoraggio non si basano su caselle di ancoraggio, hanno un design più semplice. Ciò significa che sono più efficienti dal punto di vista computazionale. Non dovendo elaborare più caselle di ancoraggio, possono rilevare gli oggetti più rapidamente, un vantaggio importante in applicazioni in tempo reale come la guida autonoma e la videosorveglianza.
I modelli senza ancore sono anche molto più adatti a gestire oggetti piccoli, irregolari o occlusi. Poiché si concentrano sul rilevamento dei punti chiave anziché cercare di adattare le caselle di ancoraggio, sono molto più flessibili. Questo permette loro di rilevare con precisione gli oggetti in ambienti complessi o disordinati, dove i modelli basati sulle ancore potrebbero fallire.
Originariamente progettati per la velocità e l'efficienza, i modelli di YOLO si sono gradualmente spostati dai metodi basati sulle ancore al rilevamento senza ancore, rendendo modelli come YOLO11 più veloci, più flessibili e più adatti a un'ampia gamma di applicazioni in tempo reale.
Ecco una rapida occhiata a come si è evoluto il design senza ancore nelle diverse versioni di YOLO :
Un ottimo esempio dei vantaggi del rilevamento senza ancoraggio con YOLO11 è rappresentato dai veicoli autonomi. Nelle auto a guida autonoma, il rilevamento rapido e accurato di pedoni, altri veicoli e ostacoli è fondamentale per la sicurezza. YOLO11 L'approccio anchor-free di semplifica il processo di rilevamento prevedendo direttamente i punti chiave degli oggetti, come il centro di un pedone o i confini di un altro veicolo, invece di affidarsi a caselle di ancoraggio predefinite.
YOLO11 non ha bisogno di regolare o adattare una griglia di ancore a ogni oggetto, il che può essere computazionalmente costoso e lento. Invece, si concentra sulle caratteristiche principali, rendendole più veloci ed efficienti. Ad esempio, quando un pedone entra nel percorso del veicolo, YOLO11 è in grado di identificare rapidamente la sua posizione individuando i punti chiave, anche se la persona è parzialmente nascosta o in movimento. La capacità di adattarsi a forme e dimensioni diverse, senza caselle di ancoraggio, permette a YOLO11 di rilevare gli oggetti in modo più affidabile e a velocità più elevate, il che è fondamentale per prendere decisioni in tempo reale nei sistemi di guida autonoma.
Tra le altre applicazioni in cui le capacità di YOLO11di non avere ancoraggi si fanno notare ci sono:
Sebbene i modelli senza ancoraggio come YOLO11 offrano molti vantaggi, presentano alcune limitazioni. Una delle principali considerazioni pratiche da fare è che anche i modelli privi di ancoraggio possono avere difficoltà in caso di occlusioni o oggetti molto sovrapposti. Il motivo è che la computer vision mira a replicare la visione umana e, proprio come noi a volte fatichiamo a identificare gli oggetti occlusi, i modelli di intelligenza artificiale possono affrontare sfide simili.
Un altro fattore interessante è legato all'elaborazione delle previsioni del modello. Sebbene l'architettura dei modelli senza ancore sia più semplice di quella basata sulle ancore, in alcuni casi si rende necessario un ulteriore perfezionamento. Ad esempio, possono essere necessarie tecniche di post-elaborazione come la soppressione non massimale (NMS) per ripulire le previsioni che si sovrappongono o per migliorare l'accuratezza in scene affollate.
Il passaggio dal rilevamento basato sulle ancore a quello senza ancore ha rappresentato un progresso significativo nel rilevamento degli oggetti. Con i modelli privi di ancore come YOLO11, il processo è semplificato, con conseguenti miglioramenti sia in termini di accuratezza che di velocità.
Grazie a YOLO11, abbiamo visto come il rilevamento di oggetti senza ancoraggio eccelle in applicazioni in tempo reale come le auto a guida autonoma, la videosorveglianza e l'imaging medico, dove il rilevamento rapido e preciso è fondamentale. Questo approccio consente a YOLO11 di adattarsi più facilmente alle dimensioni variabili degli oggetti e alle scene complesse, offrendo prestazioni migliori in ambienti diversi.
Con la continua evoluzione della computer vision, il rilevamento degli oggetti diventerà sempre più veloce, flessibile ed efficiente.
Esplora il nostro repository GitHub e unisciti alla nostra coinvolgente community per rimanere aggiornato su tutto ciò che riguarda l'IA. Scopri come Vision AI sta influenzando settori come la produzione e l'agricoltura.
Inizia il tuo viaggio nel futuro dell'apprendimento automatico