Scopri i rilevatori di oggetti a stadio singolo per l'intelligenza artificiale in tempo reale ad alta velocità. Scopri come Ultralytics offre precisione ed efficienza eccellenti per l'intelligenza artificiale edge e l'implementazione.
I rilevatori di oggetti a stadio singolo sono una potente classe di architetture di deep learning progettate per eseguire attività di rilevamento di oggetti con velocità ed efficienza eccezionali. A differenza dei tradizionali rilevatori di oggetti a due stadi, che dividono il processo di rilevamento in fasi separate per la proposta di regione e la successiva classificazione, i modelli a stadio singolo analizzano l'intera immagine in un unico passaggio. Inquadrando il rilevamento come un problema di regressione diretta, queste reti prevedono simultaneamente le coordinate del riquadro di delimitazione e le probabilità di classe direttamente dai pixel di input. Questo approccio semplificato riduce significativamente il sovraccarico computazionale, rendendo i rilevatori monostadio la scelta preferita per le applicazioni che richiedono inferenza e implementazione in tempo reale su dispositivi AI edge con risorse limitate.
L'architettura di un rilevatore a stadio singolo è tipicamente incentrata su una rete neurale convoluzionale (CNN) che funge da backbone per l' estrazione delle caratteristiche. Quando un'immagine passa attraverso la rete, il modello genera una griglia di mappe di caratteristiche che codificano le informazioni spaziali e semantiche.
Le prime implementazioni, come il Single Shot MultiBox Detector (SSD), si basavano su riquadri di ancoraggio predefiniti a varie scale per localizzare gli oggetti. Tuttavia, i progressi moderni come Ultralytics YOLO11 e il più recente YOLO26 si sono in gran parte orientati verso progetti senza anchor. Queste nuove architetture prevedono direttamente il centro e le dimensioni degli oggetti, eliminando la necessità di una complessa regolazione degli iperparametri associata agli anchor. Il risultato finale consiste in vettori di coordinate per la localizzazione e un punteggio di affidabilità che rappresenta la certezza del modello riguardo all'oggetto rilevato.
Distinguere tra queste due categorie principali aiuta a selezionare lo strumento giusto per un compito specifico:
L'efficienza dei rilevatori monostadio ha portato alla loro diffusione in diversi settori industriali in cui la reattività immediata è fondamentale:
L'implementazione di un rilevatore monostadio è semplice utilizzando le moderne API di alto livello. Per garantire risultati accurati, i modelli spesso prevedono più potenziali riquadri, che vengono poi filtrati utilizzando tecniche come la soppressione non massima (NMS) basata su soglie di intersezione su unione (IoU), anche se i modelli end-to-end più recenti come YOLO26 gestiscono questo aspetto in modo nativo.
Il seguente Python mostra come caricare il modello all'avanguardia YOLO26 ed eseguire l'inferenza su un'immagine:
from ultralytics import YOLO
# Load the YOLO26 model, the latest natively end-to-end one-stage detector
model = YOLO("yolo26n.pt")
# Run inference on an image URL to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes and labels
results[0].show()
L'evoluzione dei rilevatori a stadio singolo si è concentrata sul superamento del compromesso "precisione contro velocità". Tecniche come Focal Loss sono state introdotte per affrontare lo squilibrio di classe durante l'addestramento, assicurando che il modello si concentri suclassify piuttosto che sullo sfondo abbondante . Inoltre, l'integrazione delle Feature Pyramid Networks (FPN) consente a questi modelli di detect efficacemente detect su scale diverse.
Oggi, ricercatori e sviluppatori possono facilmente addestrare queste architetture avanzate su set di dati personalizzati utilizzando strumenti come la Ultralytics , che semplifica il flusso di lavoro dall' annotazione dei dati alla distribuzione dei modelli. Che si tratti di agricoltura o di sanità, l'accessibilità dei rilevatori a stadio singolo sta democratizzando le potenti capacità della visione artificiale.