Esplora i fondamenti del rilevamento degli oggetti. Scopri come Ultralytics identifica e localizza gli oggetti in tempo reale con velocità e precisione senza pari.
Il rilevamento degli oggetti è una tecnologia fondamentale nel campo della visione artificiale (CV) che consente ai sistemi informatici di identificare e localizzare elementi specifici all'interno dei dati visivi. A differenza delle più semplici attività di classificazione delle immagini, che assegnano un' unica etichetta all'intera immagine, il rilevamento degli oggetti fornisce una comprensione granulare prevedendo contemporaneamente la classe di un oggetto (ad esempio, "persona", "auto", "cane") e la sua posizione spaziale. Questa posizione è tipicamente rappresentata da un rettangolo che racchiude l'oggetto, accompagnato da un punteggio di affidabilità che indica la certezza del modello. Questa doppia capacità, riconoscimento e localizzazione, costituisce la base sensoriale delle moderne applicazioni di intelligenza artificiale (AI) , consentendo alle macchine di interagire in modo significativo con l'ambiente circostante.
I moderni rilevatori si basano in larga misura sulle architetture di Deep Learning (DL), in particolare sulle reti neurali convoluzionali (CNN), per estrarre caratteristiche complesse dalle immagini in ingresso. Il processo inizia con una fase di addestramento, in cui un modello impara a riconoscere i modelli utilizzando raccolte massive ed etichettate come il COCO . Durante questa fase, l'algoritmo ottimizza i pesi del modello per ridurre al minimo gli errori di previsione .
Quando il modello viene implementato per l'inferenza, esegue la scansione delle nuove immagini per proporre potenziali oggetti. Gli algoritmi avanzati applicano quindi la soppressione non massima (NMS) per filtrare i rilevamenti duplicati, assicurando che ogni entità distinta venga evidenziata una sola volta. L'accuratezza di queste previsioni viene spesso valutata utilizzando la metrica Intersection over Union (IoU), che misura la sovrapposizione tra il riquadro previsto e la verità di base. I recenti progressi hanno portato alla creazione di architetture end-to-end come YOLO26, che ottimizzano questa pipeline per garantire una velocità eccezionale e capacità di inferenza in tempo reale sui dispositivi edge .
È fondamentale distinguere il rilevamento degli oggetti dai concetti correlati per scegliere lo strumento giusto per un progetto:
La versatilità del rilevamento degli oggetti stimola l'innovazione nei principali settori industriali. Nel settore automobilistico, l' intelligenza artificiale nei veicoli autonomi si basa in modo critico su modelli di rilevamento per identificare istantaneamente pedoni, segnali stradali e altri veicoli per navigare in sicurezza. Elaborando i feed video delle telecamere di bordo, questi sistemi prendono decisioni in frazioni di secondo che prevengono gli incidenti.
Un altro caso d'uso di rilievo è quello dell'intelligenza artificiale nel settore della vendita al dettaglio. I sistemi di cassa automatizzati e i robot intelligenti per la gestione dell'inventario utilizzano il rilevamento degli oggetti per scansionare gli scaffali, riconoscere i prodotti e detect eventuali carenze detect o articoli fuori posto. Questa automazione semplifica le catene di approvvigionamento e migliora l' esperienza del cliente garantendo la disponibilità costante dei prodotti.
Gli sviluppatori possono implementare facilmente flussi di lavoro di rilevamento utilizzando il ultralytics Python . L'esempio seguente
mostra come caricare un modello pre-addestrato YOLO26 modello
ed eseguire inferenze su un'immagine.
from ultralytics import YOLO
# Load the latest YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image from a URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
Per i team che desiderano espandere le proprie operazioni, la Ultralytics offre un ambiente completo per annotare i dati, addestrare modelli personalizzati nel cloud e distribuirli in vari formati come ONNX o TensorRT. L'utilizzo di tali piattaforme semplifica il ciclo di vita MLOps, consentendo agli ingegneri di concentrarsi sul perfezionamento delle loro applicazioni piuttosto che sulla gestione dell'infrastruttura.