Scopri la potenza del rilevamento degli oggetti: identifica e localizza gli oggetti nelle immagini o nei video con modelli all'avanguardia come YOLO. Esplora le applicazioni del mondo reale!
Il rilevamento degli oggetti è un compito fondamentale della computer vision (CV) che consiste nell'identificare la presenza, la posizione e il tipo di uno o più oggetti all'interno di un'immagine o di un video. A differenza della classificazione delle immagini, che assegna un'unica etichetta all'intera immagine, il rilevamento degli oggetti delinea con precisione ogni istanza di oggetto utilizzando un riquadro di delimitazione e assegnandogli un'etichetta di classe. Questa capacità consente alle macchine di comprendere le scene visive con una maggiore granularità, rispecchiando più da vicino la percezione visiva umana.
Il rilevamento degli oggetti combina tipicamente due compiti fondamentali: la classificazione degli oggetti (determinare "quale" oggetto è presente) e la localizzazione degli oggetti (determinare "dove" si trova l'oggetto). I moderni sistemi di rilevamento degli oggetti si basano molto sul deep learning (DL), in particolare sulle reti neurali convoluzionali (CNN). Queste reti vengono addestrate su grandi set di dati, come il popolare set di dati COCO, per apprendere caratteristiche e modelli associati a diverse classi di oggetti. Il modello elabora un'immagine in ingresso e produce un elenco di caselle di delimitazione, ciascuna con un'etichetta di classe associata (ad esempio, "auto", "persona") e un punteggio di confidenza. Le prestazioni di questi modelli vengono spesso misurate utilizzando metriche come Intersection over Union (IoU) e mean Average Precision (mAP).
È importante distinguere il rilevamento degli oggetti da altre attività di computer vision correlate:
I modelli di rilevamento degli oggetti rientrano generalmente in due categorie:
Il rilevamento degli oggetti è fondamentale per numerose applicazioni in vari settori:
Lo sviluppo di modelli di rilevamento degli oggetti comporta l'utilizzo di strumenti e piattaforme specializzate. Framework come PyTorch e TensorFlow forniscono gli elementi costitutivi. Librerie come OpenCV offrono funzioni essenziali di computer vision. Ultralytics offre lo stato dell'arte di Ultralytics YOLO e la piattaforma Ultralytics HUB, che semplifica il processo di formazione dei modelli personalizzati, la gestione dei set di dati e la distribuzione efficiente delle soluzioni. L'addestramento efficace dei modelli spesso richiede un'attenta regolazione degli iperparametri e strategie di incremento dei dati.