Glossario

Rivelatori di oggetti a due stadi

Scopri la potenza dei rilevatori di oggetti a due stadi, soluzioni incentrate sulla precisione per il rilevamento preciso degli oggetti in attività di computer vision complesse.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I rilevatori di oggetti a due fasi rappresentano una classe di architetture per il rilevamento di oggetti note per la loro elevata precisione, in particolare nelle scene complesse. A differenza delle loro controparti, questi rilevatori suddividono l'attività di rilevamento degli oggetti in due fasi distinte: in primo luogo identificano le regioni potenziali di un'immagine che potrebbero contenere oggetti (proposta di regioni) e in secondo luogo classificano gli oggetti all'interno di queste regioni proposte e ne perfezionano la posizione utilizzando i riquadri di delimitazione. Questo approccio metodico consente un'analisi dettagliata, ma spesso ha un costo in termini di velocità di calcolo rispetto a metodi alternativi. Questi modelli sono una pietra miliare nell'evoluzione della computer vision (CV).

Come funzionano i rilevatori a due fasi

Il funzionamento di un rilevatore a due fasi prevede una pipeline sequenziale, che in genere sfrutta le reti neurali profonde (NN), in particolare le reti neurali convoluzionali (CNN), per l'estrazione delle caratteristiche.

  1. Fase 1: Proposta di regioni: La prima fase mira a generare un insieme gestibile di regioni candidate (Regioni di Interesse, o RoI) in cui è probabile che si trovino gli oggetti. I primi modelli, come R-CNN, utilizzavano metodi esterni come la ricerca selettiva, mentre i progressi successivi, in particolare l'architettura Faster R-CNN, hanno integrato questa fase nella rete neurale stessa utilizzando una Region Proposal Network (RPN). La RPN analizza in modo efficiente le mappe di caratteristiche prodotte dalla rete dorsale e predice le posizioni e le dimensioni dei potenziali oggetti.
  2. Fase 2: Classificazione e perfezionamento: Le regioni proposte nella prima fase passano alla seconda fase. Per ogni RoI, vengono estratte delle caratteristiche dalla mappa delle caratteristiche condivisa (utilizzando tecniche come RoIPooling o RoIAlign per gestire le dimensioni variabili delle regioni). Queste caratteristiche confluiscono in una testa di rilevamento che esegue due compiti: classificare l'oggetto all'interno del RI (ad esempio, "auto", "persona", "sfondo") e affinare le coordinate del riquadro di delimitazione per adattarlo più accuratamente all'oggetto.

Caratteristiche principali

I rilevatori a due stadi sono caratterizzati principalmente da:

  • Alta precisione: La separazione tra la generazione delle proposte e la classificazione/raffinamento consente alla seconda fase di concentrare le proprie risorse su un insieme più ristretto di regioni promettenti, spesso portando a una maggiore precisione di localizzazione e classificazione. Tendono a ottenere buoni risultati con oggetti piccoli e in scene affollate. Le prestazioni vengono spesso misurate utilizzando parametri come la precisione media (mAP) e l'intersezione sull'unione (IoU).
  • Velocità di inferenza inferiore: L'elaborazione dell'immagine in due fasi distinte, soprattutto per quanto riguarda la generazione e l'elaborazione individuale di numerose proposte di regioni, rende questi rilevatori più intensivi dal punto di vista computazionale e generalmente più lenti rispetto ai rilevatori di oggetti in una sola fase. Questo può limitarne l'uso nelle applicazioni che richiedono un'inferenza in tempo reale.

Confronto con i rivelatori a uno stadio

La distinzione principale sta nella pipeline operativa. I rilevatori a uno stadio, come il modello Ultralytics YOLO (compresi modelli come YOLO11 e YOLOv8) e SSD (Single Shot MultiBox Detector), prevedono direttamente le bounding box e le probabilità di classe dall'intera immagine in un unico passaggio in avanti attraverso la rete. Trattano il rilevamento degli oggetti come un problema di regressione. Questo approccio unificato garantisce notevoli vantaggi in termini di velocità, rendendoli adatti ad applicazioni in tempo reale. Tuttavia, storicamente hanno dovuto affrontare delle sfide per eguagliare l'accuratezza dei rilevatori a due stadi, soprattutto per gli oggetti di piccole dimensioni, anche se questo divario si è ridotto notevolmente con i moderni progressi. Per maggiori dettagli, puoi esplorare il confronto tra i diversi modelli di rilevamento degli oggetti.

Architetture degne di nota

L'evoluzione dei rivelatori a due stadi comprende diversi modelli influenti:

  • R-CNN (Regioni con caratteristiche CNN): Il lavoro pionieristico che combinava le proposte di regioni con le caratteristiche CNN, ma era lento a causa dell'elaborazione di ogni regione in modo indipendente.
  • R-CNN veloce: Velocità migliorata grazie alla condivisione dei calcoli tra le proposte utilizzando RoIPooling su una mappa di caratteristiche convoluzionali condivisa.(Documento sulla R-CNN veloce)
  • R-CNN più veloce: Abbiamo aumentato ulteriormente la velocità e l'eleganza integrando la fase di proposta della regione nella rete tramite la RPN, creando un sistema addestrabile quasi end-to-end.
  • Maschera R-CNN: Estensione della R-CNN più veloce per eseguire la segmentazione delle istanze aggiungendo un ramo per prevedere le maschere di segmentazione per ogni oggetto rilevato.(Documento Mask R-CNN)

Applicazioni del mondo reale

L'elevata accuratezza dei rilevatori a due stadi li rende preziosi negli scenari in cui la precisione è fondamentale:

  • Analisi delle immagini mediche: L'individuazione di anomalie sottili come piccoli tumori, lesioni o polipi nelle scansioni mediche (TC, RM) richiede un'elevata precisione per favorire la diagnosi. La localizzazione precisa è fondamentale per la pianificazione del trattamento. Per saperne di più sull'intelligenza artificiale nell'assistenza sanitaria e nella ricerca, consulta riviste come Radiology: Artificial Intelligence. Puoi esplorare dataset come il dataset Brain Tumor per attività correlate.
  • Guida autonoma: Rilevare e localizzare con precisione pedoni, ciclisti, altri veicoli e segnali stradali, soprattutto quelli piccoli o parzialmente occlusi, è fondamentale per i sistemi di sicurezza delle auto a guida autonoma. Aziende come Waymo puntano molto su sistemi di percezione robusti.
  • Comprensione dettagliata della scena: Le applicazioni che richiedono una comprensione a grana fine delle interazioni degli oggetti o un conteggio preciso beneficiano di una maggiore precisione.
  • Controllo qualità nella produzione: L'identificazione di piccoli difetti o la verifica del posizionamento dei componenti in assemblaggi complessi richiedono spesso un'elevata precisione. Scopri di più sull'IA nella produzione.

L'addestramento di questi modelli richiede in genere grandi set di dati etichettati, come il set di dati COCO, e un'attenta messa a punto. Ultralytics fornisce risorse per l'addestramento dei modelli e per la comprensione delle metriche delle prestazioni. Sebbene Ultralytics si concentri su modelli efficienti a uno stadio, come Ultralytics YOLO, la comprensione dei rilevatori a due stadi fornisce un contesto prezioso nel campo più ampio del rilevamento degli oggetti.

Leggi tutto