Scopri come i rilevatori basati sulle ancore rivoluzionano il rilevamento degli oggetti grazie alla localizzazione precisa, all'adattabilità alla scala e alle applicazioni reali.
I rilevatori basati su ancore rappresentano un approccio fondamentale nell'ambito della computer vision (CV) per eseguire il rilevamento degli oggetti. Questi modelli si basano su una serie di caselle di riferimento predefinite, note come "ancore" o "priori", che hanno dimensioni e rapporti di aspetto specifici. Queste ancore fungono da punti di partenza o da modelli in un'immagine, aiutando il modello a prevedere in modo più efficace la posizione e la classe di potenziali oggetti, soprattutto quelli che variano significativamente in scala e forma. Molte delle precedenti architetture di rilevamento degli oggetti di successo utilizzavano questo metodo.
L'idea alla base dei rilevatori basati sulle ancore consiste nel posizionare una fitta griglia di caselle di ancoraggio in vari punti dell'immagine di input. Ogni casella di ancoraggio rappresenta un potenziale oggetto candidato con una scala e un rapporto di aspetto predefiniti. Durante il processo di addestramento, il modello impara due cose principali per ogni ancoraggio: in primo luogo, se l'ancoraggio contiene un oggetto rilevante (classificazione) e, in secondo luogo, come regolare la posizione e le dimensioni dell'ancoraggio (regressione) per adattarsi perfettamente al rettangolo di selezione dell'oggetto reale.
Immagina di cercare diversi veicoli in un'immagine di un grande parcheggio. Invece di effettuare una scansione pixel per pixel, utilizzi dei modelli rettangolari predefiniti (ancore): piccoli verticali per le moto, medi squadrati per le auto e grandi larghi per gli autobus. Questi modelli vengono sovrapposti all'immagine. Quando un modello si sovrappone in modo significativo a un veicolo, il modello impara a confermare "Sì, questa è un'auto" e sposta e ridimensiona leggermente il modello per adattarlo perfettamente ai confini dell'auto. Le ancore che coprono prevalentemente lo sfondo vengono classificate come tali. Questo metodo copre sistematicamente le possibilità, guidato dalle forme predefinite. Le prestazioni vengono spesso misurate utilizzando metriche come Intersection over Union (IoU) e mean Average Precision (mAP).
I rilevatori basati su ancore, spesso costruiti su reti neurali convoluzionali (CNN), offrono diverse caratteristiche degne di nota:
Uno sviluppo significativo nel campo del rilevamento degli oggetti è stata l'ascesa dei rilevatori privi di ancore. A differenza dei modelli basati sulle ancore (ad esempio, YOLOv4), i metodi privi di ancore predicono le posizioni e le dimensioni degli oggetti direttamente, spesso identificando i punti chiave (come gli angoli o i centri) o prevedendo le distanze da un punto ai confini dell'oggetto, senza affidarsi a forme di ancoraggio predefinite.
Le principali distinzioni includono:
Modelli moderni come Ultralytics YOLO11 utilizzano approcci privi di ancore, sfruttandone i vantaggi in termini di efficienza e semplicità. Puoi leggere ulteriori informazioni sui vantaggi del rilevamento senza ancore in YOLO11.
Nonostante la tendenza verso metodi privi di ancore, i rilevatori basati su queste ultime sono stati utilizzati con successo in numerose applicazioni:
Mentre i metodi privi di ancore guadagnano popolarità, la comprensione dei rilevatori basati sulle ancore è essenziale per apprezzare l'evoluzione del rilevamento degli oggetti e la loro continua rilevanza in contesti specifici o in sistemi preesistenti. Strumenti come PyTorch e TensorFlow supportano lo sviluppo di modelli sia anchor-based che anchor-free, mentre piattaforme come Ultralytics HUB semplificano l'addestramento e la distribuzione dei moderni rilevatori.