Glossario

Rilevamento degli oggetti

Scopri la potenza del rilevamento degli oggetti: identifica e localizza gli oggetti nelle immagini o nei video con modelli all'avanguardia come YOLO. Esplora le applicazioni del mondo reale!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Il rilevamento degli oggetti è un compito fondamentale della computer vision (CV) che consiste nell'identificare la presenza, la posizione e il tipo di uno o più oggetti all'interno di un'immagine o di un video. A differenza della classificazione delle immagini, che assegna un'unica etichetta all'intera immagine (ad esempio, "gatto"), il rilevamento degli oggetti delinea con precisione ogni istanza di oggetto utilizzando un riquadro di delimitazione e assegnando ad esso un'etichetta di classe (ad esempio, "gatto" alle coordinate x, y, larghezza, altezza). Questa capacità permette alle macchine di comprendere le scene visive con maggiore granularità, imitando più da vicino la percezione visiva umana e consentendo interazioni più complesse con l'ambiente. Si tratta di una tecnologia fondamentale alla base di molte moderne applicazioni di intelligenza artificiale (AI).

Come funziona il rilevamento degli oggetti

Il rilevamento degli oggetti combina tipicamente due compiti fondamentali: la classificazione degli oggetti (determinare "quale" oggetto è presente) e la localizzazione degli oggetti (determinare "dove" si trova l'oggetto, solitamente tramite le coordinate del rettangolo di selezione). I moderni sistemi di rilevamento degli oggetti si basano molto sul deep learning (DL), in particolare sulle reti neurali convoluzionali (CNN). Queste reti vengono addestrate su grandi set di dati annotati, come il popolare set di dati COCO o Open Images V7, per apprendere le caratteristiche visive e i modelli associati a diverse classi di oggetti.

Durante il funzionamento (noto come inferenza), il modello addestrato elabora un'immagine o un fotogramma video in ingresso. Produce un elenco di oggetti potenziali, ciascuno rappresentato da un riquadro di delimitazione, un'etichetta di classe prevista (ad esempio, "auto", "persona", "cane") e un punteggio di confidenza che indica la certezza del rilevamento da parte del modello. Tecniche come la soppressione non massimale (NMS) sono spesso utilizzate per affinare questi risultati eliminando i riquadri ridondanti e sovrapposti per lo stesso oggetto. Le prestazioni di questi modelli vengono solitamente valutate utilizzando metriche come Intersection over Union (IoU) e mean Average Precision (mAP).

Rilevamento di oggetti e compiti correlati

È importante distinguere il rilevamento degli oggetti da altre attività di computer vision correlate:

  • Classificazione delle immagini: Assegna una singola etichetta a un'intera immagine (ad esempio, "Questa immagine contiene un cane"). Non individua gli oggetti.
  • Segmentazione delle immagini: Classifica ogni pixel di un'immagine, creando una mappa dettagliata dei confini degli oggetti. Si tratta di una mappa più granulare rispetto ai riquadri di delimitazione del rilevamento degli oggetti.
    • Segmentazione semantica: Assegna un'etichetta di classe a ogni pixel (ad esempio, tutti i pixel appartenenti a "auto" sono etichettati come "auto"). Non distingue tra diverse istanze della stessa classe.
    • Segmentazione dell'istanza: Assegna un'etichetta di classe a ogni pixel e differenzia le singole istanze della stessa classe (ad esempio, "auto 1", "auto 2"). Combina il rilevamento e la segmentazione.
  • Tracciamento dell'oggetto: Consiste nel rilevare gli oggetti in fotogrammi video consecutivi e nell'assegnare un ID univoco a ciascun oggetto per seguirne il movimento nel tempo. Si basa sul rilevamento degli oggetti.

Tipi di modelli di rilevamento degli oggetti

I modelli di rilevamento degli oggetti rientrano generalmente in due categorie principali, che si differenziano principalmente per l'approccio e il compromesso velocità/accuratezza:

  • Rivelatori di oggetti a due stadi: Questi modelli propongono prima le regioni di interesse (RoI) in cui potrebbero trovarsi gli oggetti e poi classificano gli oggetti all'interno di queste regioni. Ne sono un esempio la famiglia R-CNN (Fast R-CNN, Faster R-CNN). Spesso raggiungono un'elevata precisione ma tendono a essere più lenti.
  • Rivelatori di oggetti a uno stadio: Questi modelli predicono direttamente i riquadri di delimitazione e le probabilità di classe dall'immagine di input in un unico passaggio, senza una fase separata di proposta di regioni. Ne sono un esempio i modelli Ultralytics YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector) e RetinaNet. In genere sono più veloci, il che li rende adatti all'inferenza in tempo reale, a volte al costo di un'accuratezza leggermente inferiore rispetto ai metodi a due stadi, anche se i modelli come YOLO11 colmano efficacemente questo divario. Gli approcci più recenti, come i rilevatori privi di ancore, semplificano ulteriormente il processo a uno stadio. Puoi esplorare il confronto tra diversi modelli YOLO e altre architetture come RT-DETR.

Applicazioni del mondo reale

Il rilevamento degli oggetti è una tecnologia fondamentale che consente numerose applicazioni in diversi settori:

  1. Sistemi autonomi: Essenziale per le auto a guida autonoma e la robotica, permette ai veicoli e ai robot di percepire l'ambiente circostante rilevando pedoni, altri veicoli, ostacoli, segnali stradali e oggetti specifici per l'interazione. Aziende come Tesla e Waymo si basano molto sul rilevamento degli oggetti.
  2. Sicurezza e sorveglianza: Utilizzata nei sistemi di allarme per rilevare gli intrusi, monitorare le folle(Vision AI in Crowd Management), identificare gli oggetti abbandonati e migliorare l'efficienza del monitoraggio negli spazi pubblici e nelle proprietà private.
  3. Retail Analytics: Potenzia applicazioni come i sistemi di cassa automatizzati, la gestione dell'inventario guidata dall'intelligenza artificiale, il monitoraggio degli scaffali (per individuare gli articoli esauriti) e l'analisi del traffico dei clienti.
  4. Sanità: Applicata nell'analisi delle immagini mediche per rilevare anomalie come tumori(Using YOLO11 for Tumor Detection) o lesioni in radiografie, TAC e risonanze magnetiche, assistendo i radiologi nella diagnosi(Radiology: Artificial Intelligence).
  5. Agricoltura: Consente di utilizzare tecniche di agricoltura di precisione, come il rilevamento di parassiti, malattie, erbacce, il conteggio dei frutti(Computer Vision in agricoltura) e il monitoraggio della salute delle colture(soluzioni di AI in agricoltura).
  6. Produzione: Vengono utilizzati per il controllo della qualità, rilevando i difetti dei prodotti sulle linee di assemblaggio(Ispezione della qualità nella produzione), per garantire la sicurezza monitorando le aree pericolose e per automatizzare le attività robotiche.

Strumenti e formazione

Lo sviluppo e l'implementazione di modelli di rilevamento degli oggetti coinvolge diversi strumenti e tecniche. I framework di deep learning più diffusi, come PyTorch e TensorFlow forniscono le librerie fondamentali. Le librerie di computer vision come OpenCV offrono funzioni essenziali di elaborazione delle immagini.

Ultralytics offre un servizio all'avanguardia Ultralytics YOLO modelli, tra cui YOLOv8 e YOLO11ottimizzati per velocità e precisione. La piattaforma Ultralytics HUB semplifica ulteriormente il flusso di lavoro, offrendo strumenti per la gestione dei dataset, l'addestramento di modelli personalizzati, la messa a punto degli iperparametri e la semplificazione della distribuzione dei modelli. L'addestramento efficace dei modelli spesso trae vantaggio dalle strategie di aumento dei dati e da tecniche come il transfer learning, che utilizza pesi pre-addestrati da dataset come ImageNet.

Leggi tutto