I rilevatori di oggetti a due stadi rappresentano una categoria di architetture di rilevamento degli oggetti nella computer vision (CV) che privilegiano l'accuratezza dividendo il processo di rilevamento in due fasi distinte. Questi rilevatori sono progettati per identificare prima le regioni di interesse (RoI) all'interno di un'immagine in cui potrebbero essere presenti degli oggetti e poi, nella seconda fase, classificare gli oggetti all'interno di queste regioni proposte e perfezionare le loro posizioni (bounding box). Questo approccio metodico consente un'analisi più dettagliata di ogni potenziale oggetto e spesso porta a una maggiore precisione di rilevamento, soprattutto in scenari complessi o quando si rilevano oggetti di piccole dimensioni.
Come funzionano i rilevatori a due fasi
Il funzionamento dei rilevatori a due fasi prevede un processo sequenziale che sfrutta le tecniche di deep learning, in particolare le reti neurali convoluzionali (CNN).
- Fase 1: Proposta di regioni: La prima fase utilizza in genere una Region Proposal Network (RPN), un concetto reso popolare dal modello Faster R-CNN. La RPN analizza le caratteristiche dell'immagine (estratte da una CNN dorsale come ResNet) e propone una serie di regioni candidate che potrebbero contenere oggetti. Queste proposte sono essenzialmente caselle di delimitazione grossolane attorno a potenziali oggetti.
- Fase 2: Classificazione e perfezionamento: Le regioni proposte (RoI) passano alla seconda fase. Per ogni RoI, vengono estratte le caratteristiche (spesso utilizzando tecniche come RoIPool o RoIAlign) e una rete neurale (NN) esegue due compiti: classificare l'oggetto all'interno della RoI (ad esempio, "auto", "persona", "sfondo") e affinare le coordinate del riquadro di delimitazione per adattarlo più accuratamente all'oggetto. Esempi importanti sono la famiglia R-CNN(Cos'è R-CNN?, Fast R-CNN, Faster R-CNN) e Mask R-CNN, che estende questo approccio per eseguire la segmentazione delle istanze.
Vantaggi e svantaggi
I rilevatori a due stadi offrono notevoli vantaggi, ma comportano anche dei compromessi:
Vantaggi:
- Alta precisione: La separazione tra la generazione delle proposte e la classificazione/raffinamento consente un'elaborazione più mirata, che in genere si traduce in una maggiore accuratezza, misurata in particolare da parametri come la precisione media (mAP).
- Migliore localizzazione: La fase di perfezionamento porta spesso a previsioni più precise del rettangolo di selezione.
- Efficaci per gli oggetti piccoli: Possono avere prestazioni migliori rispetto ai rilevatori a uno stadio per identificare gli oggetti più piccoli in un'immagine grazie al secondo stadio focalizzato.
Svantaggi:
- Velocità inferiore: il processo sequenziale a due fasi richiede intrinsecamente più tempo di calcolo, con conseguente latenza di inferenza inferiore rispetto ai metodi a una fase. Questo li rende meno adatti alle applicazioni che richiedono un'inferenza in tempo reale.
- Complessità: L'architettura è generalmente più complessa da implementare e da addestrare.
- Costo computazionale più elevato: In genere richiedono più risorse di calcolo (come le GPU) sia per l'addestramento che per l'inferenza.
Confronto con i rivelatori a uno stadio
La differenza principale sta nell'architettura e nell'approccio. I rilevatori di oggetti a un solo stadio, come ad esempio il modello Ultralytics YOLO (ad esempio, YOLOv8, YOLO11) e SSD, eseguono la localizzazione e la classificazione degli oggetti contemporaneamente in un unico passaggio attraverso la rete. Questo li rende significativamente più veloci. La scelta tra rilevatori a uno o due stadi comporta spesso un compromesso: privilegiare la velocità (uno stadio) o la massima precisione (due stadi). Mentre i rilevatori a uno stadio hanno colmato in modo significativo il divario di accuratezza, i rilevatori a due stadi mantengono spesso un vantaggio negli scenari che richiedono la massima precisione.
Applicazioni del mondo reale
L'elevata accuratezza dei rilevatori a due stadi li rende preziosi nelle applicazioni in cui la precisione è fondamentale:
- Analisi delle immagini mediche: Rilevare anomalie sottili come piccoli tumori o lesioni in scansioni TC o MRI, dove l'alta precisione è fondamentale per la diagnosi. Modelli come Mask R-CNN sono stati adattati a questo tipo di compiti nell'ambito dell'AI in ambito sanitario (vedi esempio: Mask R-CNN nell'imaging medico).
- Guida autonoma: Consentire ai sistemi di percezione dettagliata dei veicoli autonomi di rilevare e classificare con precisione vari oggetti come pedoni, veicoli e segnali stradali, anche in ambienti disordinati o difficili, contribuendo alla sicurezza generale nell'ambito dell'AI nel settore automobilistico.
- Immagini satellitari ad alta risoluzione: Analisi di immagini satellitari dettagliate per l'identificazione precisa di oggetti, come il rilevamento di specifici tipi di veicoli o di cambiamenti infrastrutturali nell'analisi delle immagini satellitari.
- Controllo qualità nella produzione: Ispezione di prodotti per difetti minori che richiedono un'elevata precisione di localizzazione in AI in Manufacturing. Framework come Detectron2 di Meta AI forniscono implementazioni dei più diffusi modelli a due stadi.