Glossario

Rilevamento degli oggetti

Scopri la potenza del rilevamento degli oggetti: identifica e localizza gli oggetti nelle immagini o nei video con modelli all'avanguardia come YOLO. Esplora le applicazioni del mondo reale!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Il rilevamento degli oggetti è un compito fondamentale della computer vision (CV) che consiste nell'identificare la presenza, la posizione e il tipo di uno o più oggetti all'interno di un'immagine o di un video. A differenza della classificazione delle immagini, che assegna un'unica etichetta all'intera immagine, il rilevamento degli oggetti delinea con precisione ogni istanza di oggetto utilizzando un riquadro di delimitazione e assegnandogli un'etichetta di classe. Questa capacità consente alle macchine di comprendere le scene visive con una maggiore granularità, rispecchiando più da vicino la percezione visiva umana.

Come funziona il rilevamento degli oggetti

Il rilevamento degli oggetti combina tipicamente due compiti fondamentali: la classificazione degli oggetti (determinare "quale" oggetto è presente) e la localizzazione degli oggetti (determinare "dove" si trova l'oggetto). I moderni sistemi di rilevamento degli oggetti si basano molto sul deep learning (DL), in particolare sulle reti neurali convoluzionali (CNN). Queste reti vengono addestrate su grandi set di dati, come il popolare set di dati COCO, per apprendere caratteristiche e modelli associati a diverse classi di oggetti. Il modello elabora un'immagine in ingresso e produce un elenco di caselle di delimitazione, ciascuna con un'etichetta di classe associata (ad esempio, "auto", "persona") e un punteggio di confidenza. Le prestazioni di questi modelli vengono spesso misurate utilizzando metriche come Intersection over Union (IoU) e mean Average Precision (mAP).

Rilevamento di oggetti e compiti correlati

È importante distinguere il rilevamento degli oggetti da altre attività di computer vision correlate:

  • Classificazione delle immagini: Assegna una singola etichetta a un'intera immagine (ad esempio, "Questa immagine contiene un gatto"). Non fornisce informazioni sulla posizione degli oggetti.
  • Segmentazione delle immagini: Classifica ogni pixel di un'immagine. La segmentazione semantica assegna un'etichetta di classe a ogni pixel (ad esempio, tutti i pixel appartenenti alle automobili sono etichettati come "auto"), mentre la segmentazione per istanze distingue tra le diverse istanze della stessa classe (ad esempio, etichettando "auto 1" e "auto 2"). La segmentazione fornisce informazioni spaziali più dettagliate rispetto ai rettangoli di selezione degli oggetti.

Tipi di modelli di rilevamento degli oggetti

I modelli di rilevamento degli oggetti rientrano generalmente in due categorie:

  • Rilevatori a due fasi: Questi modelli propongono prima le regioni di interesse (RoI) in cui potrebbero trovarsi gli oggetti e poi classificano gli oggetti all'interno di queste regioni. Ne sono un esempio la famiglia R-CNN(Region-based CNN). Spesso raggiungono un'elevata precisione ma possono essere più lenti.
  • Rilevatori a un solo passaggio: Questi modelli eseguono la localizzazione e la classificazione in un unico passaggio direttamente sulla griglia dell'immagine. Ne sono un esempio Ultralytics YOLO modelli come YOLOv8 e YOLOv11. Sono in genere più veloci, il che li rende adatti all'inferenza in tempo reale. Gli approcci più recenti, come i rilevatori privi di ancore, semplificano ulteriormente il processo di rilevamento. Puoi esplorare i confronti tra i diversi modelli YOLO per capire i loro compromessi.

Applicazioni del mondo reale

Il rilevamento degli oggetti è fondamentale per numerose applicazioni in vari settori:

Strumenti e formazione

Lo sviluppo di modelli di rilevamento degli oggetti comporta l'utilizzo di strumenti e piattaforme specializzate. Framework come PyTorch e TensorFlow forniscono gli elementi costitutivi. Librerie come OpenCV offrono funzioni essenziali di computer vision. Ultralytics offre lo stato dell'arte di Ultralytics YOLO e la piattaforma Ultralytics HUB, che semplifica il processo di formazione dei modelli personalizzati, la gestione dei set di dati e la distribuzione efficiente delle soluzioni. L'addestramento efficace dei modelli spesso richiede un'attenta regolazione degli iperparametri e strategie di incremento dei dati.

Leggi tutto