Scopri la velocità e l'efficienza dei rilevatori di oggetti a uno stadio come YOLO, ideali per applicazioni in tempo reale come la robotica e la sorveglianza.
Nel campo della computer vision (CV), in particolare nel rilevamento degli oggetti, la velocità e l'efficienza sono spesso fondamentali quanto la precisione. I rilevatori di oggetti a uno stadio sono una classe di modelli di deep learning progettati tenendo conto di queste priorità, offrendo un approccio semplificato all'identificazione e alla localizzazione di oggetti all'interno di immagini o video. A differenza delle loro controparti a due stadi, i rilevatori a uno stadio eseguono la localizzazione dell'oggetto (determinare dove si trova un oggetto) e la classificazione (determinare cosa sia un oggetto) in un unico passaggio in avanti della rete neurale. Questo design li rende molto più veloci e adatti ad applicazioni di inferenza in tempo reale.
I rilevatori di oggetti a un solo stadio si caratterizzano per il loro design end-to-end, che evita una fase separata e computazionalmente intensiva per proporre le regioni di interesse (aree che potrebbero contenere oggetti). Al contrario, trattano il rilevamento degli oggetti come un problema di regressione. Il modello elabora l'intera immagine di input una volta sola, in genere utilizzando una rete dorsale (spesso una rete neurale convoluzionale o CNN) per l'estrazione delle caratteristiche. Queste caratteristiche vengono poi inserite direttamente in una testa di rilevamento che predice le coordinate dei riquadri di delimitazione, le probabilità di classe e i punteggi di confidenza simultaneamente nella griglia dell'immagine o nelle posizioni della mappa delle caratteristiche. Questa architettura a singolo passaggio enfatizza la velocità, rendendola ideale per le applicazioni in cui è essenziale un'elaborazione rapida. Tra gli esempi più diffusi ci sono i modelli Ultralytics YOLO di Ultralytics, noti per il loro equilibrio tra velocità e accuratezza (come ad esempio YOLO11) e l'SSD (Single Shot MultiBox Detector) sviluppato da Google Research. Molti dei moderni rilevatori a un solo stadio sono anche privi di ancore, semplificando ulteriormente la pipeline rispetto ai vecchi metodi basati sulle ancore.
La differenza fondamentale tra i rilevatori di oggetti a uno e a due stadi sta nella loro pipeline operativa. I rilevatori a due stadi, come l'influente R-CNN (Region-based CNN) e i suoi successori come Faster R-CNN, generano innanzitutto numerose proposte di regioni utilizzando metodi come la ricerca selettiva o una Region Proposal Network (RPN). In una seconda fase distinta, queste proposte vengono classificate e le loro bounding box vengono perfezionate. Questo processo in due fasi raggiunge generalmente un'accuratezza maggiore, soprattutto per l'individuazione di oggetti piccoli o sovrapposti, ma ha il costo di un aumento significativo del tempo di calcolo e di una minore velocità di inferenza.
Al contrario, i rilevatori a un solo stadio uniscono queste fasi, eseguendo simultaneamente la localizzazione e la classificazione sull'intera immagine in un'unica soluzione. Questo approccio unificato si traduce in un notevole guadagno di velocità. Storicamente, questo vantaggio in termini di velocità ha talvolta comportato un compromesso, portando potenzialmente a un'accuratezza leggermente inferiore rispetto ai metodi a due stadi più avanzati, in particolare per quanto riguarda la precisione della localizzazione. Tuttavia, i progressi nella progettazione dell'architettura, nelle funzioni di perdita e nelle strategie di addestramento hanno permesso ai moderni rilevatori a uno stadio, come YOLO11 , di colmare in modo significativo questo divario di prestazioni, offrendo confronti interessanti tra vari benchmark. Le prestazioni vengono generalmente valutate utilizzando parametri come la precisione media (mAP) e l'intersezione sull'unione (IoU).
La velocità e l'efficienza dei rilevatori di oggetti a uno stadio li rendono preziosi in numerosi scenari reali che richiedono un processo decisionale ed elaborativo rapido:
Lo sviluppo e l'implementazione di rilevatori di oggetti in una sola fase comporta l'utilizzo di diversi strumenti e piattaforme. I framework di apprendimento profondo come PyTorch e TensorFlow forniscono le librerie di base. Le librerie di computer vision come OpenCV offrono funzioni essenziali di elaborazione delle immagini. Ultralytics offre lo stato dell'arte di Ultralytics YOLO e la piattaforma Ultralytics HUB, che semplifica l'addestramento di modelli personalizzati su dataset come COCO o sui tuoi dati, la gestione degli esperimenti e la distribuzione efficiente dei modelli. Un addestramento efficace dei modelli spesso richiede un'attenta regolazione degli iperparametri e strategie come l'aumento dei dati per migliorare la robustezza e la generalizzazione. I modelli possono essere esportati in formati come ONNX per essere distribuiti su varie piattaforme hardware, compresi i dispositivi edge.