Glossario

Rivelatori di oggetti a due stadi

Scoprite la potenza dei rilevatori di oggetti a due stadi, soluzioni incentrate sull'accuratezza per il rilevamento preciso degli oggetti in attività di visione computerizzata complesse.

I rilevatori di oggetti a due fasi sono una classe di modelli di computer vision che identificano e localizzano gli oggetti in un'immagine o in un video attraverso un processo sequenziale a due fasi. Questa metodologia è nota per la sua elevata accuratezza, in particolare nella localizzazione precisa degli oggetti, anche se spesso ha il costo di una maggiore latenza di inferenza. L'idea fondamentale è quella di identificare prima le potenziali aree di interesse e poi eseguire una classificazione e una localizzazione dettagliate solo su quelle regioni promettenti.

Il processo in due fasi

Il funzionamento di un rivelatore a due stadi è suddiviso in fasi distinte e sequenziali:

  1. Generazione di proposte di regioni: Nella prima fase, il modello analizza l'immagine per generare un insieme di regioni candidate, note come "regioni di interesse" (RoI) o proposte, che probabilmente contengono un oggetto. Questa operazione viene tipicamente eseguita da un sottomodulo chiamato Region Proposal Network (RPN), come notoriamente introdotto nell'architettura Faster R-CNN. L'obiettivo di questa fase non è classificare gli oggetti, ma semplicemente ridurre il numero di posizioni che la seconda fase deve analizzare.

  2. Classificazione dell'oggetto e affinamento del rettangolo di selezione: Nella seconda fase, ogni regione proposta viene passata a una testa di classificazione e a una testa di regressione. La testa di classificazione determina la classe dell'oggetto all'interno del RoI (ad esempio, "persona", "auto", "cane") o lo designa come sfondo. Contemporaneamente, la testa di regressione affina le coordinate del rettangolo di selezione per adattarle all'oggetto in modo più preciso. Questa analisi mirata di regioni preselezionate consente al modello di ottenere un'elevata precisione di localizzazione.

Rivelatori a due stadi vs. rivelatori a uno stadio

La distinzione principale sta nella loro pipeline operativa. I rilevatori a due fasi separano i compiti di localizzazione e classificazione, mentre i rilevatori di oggetti a una fase eseguono entrambi i compiti contemporaneamente in un unico passaggio.

  • Rivelatori a due stadi (ad esempio, la famiglia R-CNN): Privilegiare l'accuratezza. Il processo a due fasi consente un'estrazione e un affinamento delle caratteristiche più dettagliati per ogni potenziale oggetto, il che porta a prestazioni migliori su scene complesse con molti oggetti piccoli o sovrapposti. La loro complessità, tuttavia, li rende computazionalmente intensivi e più lenti.
  • Rivelatori a una fase (ad esempio, Ultralytics YOLO, SSD): Privilegiano la velocità e l'efficienza. Trattando il rilevamento degli oggetti come un singolo problema di regressione, raggiungono velocità di inferenza in tempo reale adatte ad applicazioni su dispositivi di intelligenza artificiale edge. Sebbene i moderni modelli a uno stadio, come YOLO11, abbiano colmato in modo significativo il divario di precisione, i rilevatori a due stadi possono ancora essere preferiti per le attività che richiedono la massima precisione possibile.

Architetture di spicco

L'evoluzione dei rivelatori a due stadi è stata segnata da diversi modelli influenti:

  • R-CNN (Region-based Convolutional Neural Network): Il modello pionieristico che per primo ha proposto di utilizzare le proposte di regioni con una rete neurale convoluzionale (CNN). Utilizzava un algoritmo esterno chiamato Ricerca selettiva per generare proposte.
  • R-CNN veloce: Un miglioramento che elabora l'intera immagine attraverso una CNN una sola volta, condividendo i calcoli e velocizzando notevolmente il processo.
  • R-CNN più veloce: Introdotta la Region Proposal Network (RPN), che integra il meccanismo di proposta delle regioni nella rete neurale stessa per una soluzione di deep learning end-to-end.
  • Maschera R-CNN: Estende Faster R-CNN aggiungendo un terzo ramo che produce una maschera a livello di pixel per ogni oggetto, consentendo la segmentazione dell'istanza.

Applicazioni del mondo reale

L'elevata accuratezza dei rilevatori a due stadi li rende preziosi negli scenari in cui la precisione è fondamentale:

  • Analisi di immagini mediche: Il rilevamento di anomalie sottili come piccoli tumori, lesioni o polipi nelle scansioni mediche (TC, RM) richiede un'elevata precisione per facilitare la diagnosi. La localizzazione precisa è fondamentale per la pianificazione del trattamento. Per saperne di più sull'intelligenza artificiale nell'assistenza sanitaria e nella ricerca, consultare riviste come Radiology: Artificial Intelligence. È possibile esplorare set di dati come il set di dati Brain Tumor per attività correlate.
  • Guida autonoma: Rilevare e localizzare con precisione pedoni, ciclisti, altri veicoli e segnali stradali, soprattutto quelli piccoli o parzialmente occlusi, è fondamentale per i sistemi di sicurezza delle auto a guida autonoma. Aziende come Waymo puntano molto su sistemi di percezione robusti.
  • Comprensione dettagliata della scena: Le applicazioni che richiedono una comprensione a grana fine delle interazioni degli oggetti o un conteggio preciso beneficiano di una maggiore precisione.
  • Controllo qualità nella produzione: L'identificazione di piccoli difetti o la verifica del posizionamento dei componenti in assemblaggi complessi richiedono spesso un'elevata precisione. Per saperne di più sull'IA nella produzione.

L'addestramento di questi modelli richiede in genere grandi set di dati etichettati, come il set di dati COCO, e un'attenta messa a punto. Ultralytics fornisce risorse per l'addestramento dei modelli e la comprensione delle metriche delle prestazioni. Mentre Ultralytics si concentra su modelli efficienti a uno stadio, come Ultralytics YOLO, la comprensione dei rilevatori a due stadi fornisce un contesto prezioso nel campo più ampio del rilevamento degli oggetti.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti