Scopri la potenza del rilevamento degli oggetti: identifica e localizza gli oggetti nelle immagini o nei video con modelli all'avanguardia come YOLO. Esplora le applicazioni del mondo reale!
Il rilevamento degli oggetti è un compito fondamentale della computer vision (CV) che consiste nell'identificare la presenza, la posizione e il tipo di uno o più oggetti all'interno di un'immagine o di un video. A differenza della classificazione delle immagini, che assegna un'unica etichetta all'intera immagine (ad esempio, "gatto"), il rilevamento degli oggetti delinea con precisione ogni istanza di oggetto utilizzando un riquadro di delimitazione e assegnando ad esso un'etichetta di classe (ad esempio, "gatto" alle coordinate x, y, larghezza, altezza). Questa capacità permette alle macchine di comprendere le scene visive con maggiore granularità, imitando più da vicino la percezione visiva umana e consentendo interazioni più complesse con l'ambiente. Si tratta di una tecnologia fondamentale alla base di molte moderne applicazioni di intelligenza artificiale (AI).
Il rilevamento degli oggetti combina tipicamente due compiti fondamentali: la classificazione degli oggetti (determinare "quale" oggetto è presente) e la localizzazione degli oggetti (determinare "dove" si trova l'oggetto, solitamente tramite le coordinate del rettangolo di selezione). I moderni sistemi di rilevamento degli oggetti si basano molto sul deep learning (DL), in particolare sulle reti neurali convoluzionali (CNN). Queste reti vengono addestrate su grandi set di dati annotati, come il popolare set di dati COCO o Open Images V7, per apprendere le caratteristiche visive e i modelli associati a diverse classi di oggetti.
Durante il funzionamento (noto come inferenza), il modello addestrato elabora un'immagine o un fotogramma video in ingresso. Produce un elenco di oggetti potenziali, ciascuno rappresentato da un riquadro di delimitazione, un'etichetta di classe prevista (ad esempio, "auto", "persona", "cane") e un punteggio di confidenza che indica la certezza del rilevamento da parte del modello. Tecniche come la soppressione non massimale (NMS) sono spesso utilizzate per affinare questi risultati eliminando i riquadri ridondanti e sovrapposti per lo stesso oggetto. Le prestazioni di questi modelli vengono solitamente valutate utilizzando metriche come Intersection over Union (IoU) e mean Average Precision (mAP).
È importante distinguere il rilevamento degli oggetti da altre attività di computer vision correlate:
I modelli di rilevamento degli oggetti rientrano generalmente in due categorie principali, che si differenziano principalmente per l'approccio e il compromesso velocità/accuratezza:
Il rilevamento degli oggetti è una tecnologia fondamentale che consente numerose applicazioni in diversi settori:
Lo sviluppo e l'implementazione di modelli di rilevamento degli oggetti coinvolge diversi strumenti e tecniche. I framework di deep learning più diffusi, come PyTorch e TensorFlow forniscono le librerie fondamentali. Le librerie di computer vision come OpenCV offrono funzioni essenziali di elaborazione delle immagini.
Ultralytics offre un servizio all'avanguardia Ultralytics YOLO modelli, tra cui YOLOv8 e YOLO11ottimizzati per velocità e precisione. La piattaforma Ultralytics HUB semplifica ulteriormente il flusso di lavoro, offrendo strumenti per la gestione dei dataset, l'addestramento di modelli personalizzati, la messa a punto degli iperparametri e la semplificazione della distribuzione dei modelli. L'addestramento efficace dei modelli spesso trae vantaggio dalle strategie di aumento dei dati e da tecniche come il transfer learning, che utilizza pesi pre-addestrati da dataset come ImageNet.