Glossario

Architetture di rilevamento degli oggetti

Scopri la potenza delle architetture di rilevamento degli oggetti, la spina dorsale dell'intelligenza artificiale per la comprensione delle immagini. Impara i tipi, gli strumenti e le applicazioni reali oggi stesso!

Le architetture di rilevamento degli oggetti sono le strutture fondamentali alla base del modo in cui i sistemi di intelligenza artificiale (AI) interpretano le informazioni visive. Queste reti neurali specializzate sono progettate non solo per classificare gli oggetti all'interno di un'immagine (identificando ciò che è presente) ma anche per localizzarli con precisione, in genere disegnando dei riquadri di delimitazione intorno a ogni istanza rilevata. Per chi ha familiarità con i concetti di base dell 'apprendimento automatico (ML), la comprensione di queste architetture è fondamentale per sfruttare le capacità della moderna computer vision (CV). Esse costituiscono la spina dorsale dei sistemi che permettono alle macchine di "vedere" e capire il mondo in modo simile agli esseri umani.

Componenti principali

La maggior parte delle architetture di rilevamento degli oggetti è costituita da diversi componenti chiave che lavorano insieme. Una rete portante, spesso una rete neurale convoluzionale (CNN), esegue l'estrazione iniziale delle caratteristiche dall'immagine di ingresso, identificando modelli di basso livello come bordi e texture e caratteristiche progressivamente più complesse. Spesso segue un componente "collo" che aggrega le caratteristiche provenienti da diversi stadi della struttura portante per creare rappresentazioni più ricche e adatte a rilevare oggetti a varie scale, un concetto illustrato in risorse come il documento Feature Pyramid Network. Infine, la testa di rilevamento utilizza queste caratteristiche per prevedere la classe e la posizione (coordinate della bounding box) degli oggetti. Le prestazioni vengono spesso misurate utilizzando metriche come Intersection over Union (IoU) per valutare l'accuratezza della localizzazione e mean Average Precision (mAP) per la qualità complessiva del rilevamento, con spiegazioni dettagliate disponibili su siti come la pagina di valutazione del dataset COCO.

Tipi di architetture

Le architetture di rilevamento degli oggetti vengono classificate in base al loro approccio:

Rilevatori a due fasi: Questi modelli propongono prima le regioni di interesse (RoI) in cui potrebbero trovarsi gli oggetti e poi classificano e perfezionano il rettangolo di selezione per ogni RoI. Ne sono un esempio la famiglia R-CNN, come Faster R-CNN. Spesso sono molto precisi, ma possono essere intensivi dal punto di vista computazionale.
Rivelatori a una fase: Questi modelli predicono direttamente le bounding box e le probabilità di classe dall'immagine di input in un unico passaggio, saltando la fase di proposta delle regioni. Ne sono un esempio il Single Shot MultiBox Detector (SSD) e l'Ultralytics. Ultralytics YOLO di Ulralytics. In genere offrono una maggiore velocità di inferenza in tempo reale, rendendoli adatti ad applicazioni che richiedono risposte rapide. I moderni rivelatori a uno stadio come YOLO11 utilizzano spesso tecniche prive di ancoraggio, semplificando la progettazione rispetto ai vecchi metodi basati sull'ancoraggio. Puoi esplorare i confronti tra i diversi modelli YOLO per vedere la loro evoluzione.

Distinguere da termini simili

È importante differenziare le architetture di rilevamento degli oggetti dalle attività di computer vision correlate:

Classificazione delle immagini: Assegna una singola etichetta a un'intera immagine (ad esempio, "gatto", "cane"). Identifica i contenuti dell'immagine a livello globale, ma non la posizione di oggetti specifici. Per esempi, consulta la documentazione dell'attività di classificazioneUltralytics .
Segmentazione semantica: Classifica ogni pixel di un'immagine in una categoria predefinita (ad esempio, tutti i pixel appartenenti alle automobili sono etichettati come "auto"). Fornisce una previsione densa ma non distingue tra diverse istanze della stessa classe di oggetti.
Segmentazione delle istanze: Fa un passo avanti rispetto alla segmentazione semantica classificando ogni pixel e distinguendo tra le singole istanze dell'oggetto (ad esempio, etichettando "auto 1", "auto 2"). Combina il rilevamento degli oggetti e la segmentazione semantica. Per maggiori dettagli, consulta la documentazione dell'attività di segmentazioneUltralytics .

Applicazioni del mondo reale

Le architetture di rilevamento degli oggetti sono alla base di numerose applicazioni di intelligenza artificiale in diversi settori:

Veicoli autonomi: È essenziale che le auto a guida autonoma percepiscano l'ambiente circostante rilevando i pedoni, gli altri veicoli, i segnali stradali e le linee di demarcazione delle corsie. Aziende come Waymo si basano molto su un sofisticato rilevamento degli oggetti. Per saperne di più sull'intelligenza artificiale nelle auto a guida autonoma.
Sicurezza e sorveglianza: Utilizzato nei sistemi di sicurezza per rilevare accessi non autorizzati, monitorare le folle per individuare attività insolite o implementare il riconoscimento facciale. Per un esempio pratico, consulta la Guida ai sistemi di allarme di sicurezzaUltralytics .
Analisi delle immagini mediche: Assiste i radiologi nell'individuazione di anomalie come tumori o fratture in radiografie, TAC e risonanze magnetiche. Esplora le soluzioni di AI nel settore sanitario e le applicazioni specifiche come il rilevamento dei tumori con YOLO11.
Retail Analytics: Consente applicazioni come il checkout automatizzato, il monitoraggio degli scaffali e l'intelligenza artificiale per la gestione dell'inventario.

Strumenti e tecnologie

Lo sviluppo e la distribuzione di modelli basati su queste architetture richiede spesso strumenti e framework specializzati:

Quadri di apprendimento profondo: Librerie come PyTorch (visita il sito ufficiale diPyTorch ) e TensorFlow (visita il sito web di TensorFlow ) forniscono gli elementi fondamentali.
Librerie di visione artificiale: OpenCV (sito ufficiale: OpenCV.org) offre una vasta gamma di funzioni per l'elaborazione e la manipolazione delle immagini.
Modelli e piattaforme: Ultralytics fornisce modelliUltralytics YOLO all'avanguardia e la piattaforma Ultralytics HUB, che semplifica il processo di formazione di modelli personalizzati, la gestione di set di dati(come COCO) e la distribuzione di soluzioni.
Open Source: Molte architetture e strumenti per il rilevamento degli oggetti sono sviluppati sotto licenze open-source, favorendo la collaborazione e l'innovazione all'interno della comunità dell'IA. Risorse come GitHub ospitano numerosi progetti in questo campo.

Architetture di rilevamento degli oggetti

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Componenti principali

Tipi di architetture

Distinguere da termini simili

Applicazioni del mondo reale

Strumenti e tecnologie

Leggi altri blog

Unisciti alla comunità di Ultralytics

Architetture di rilevamento degli oggetti

Addestra i modelli YOLO semplicementecon Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Componenti principali

Tipi di architetture

Distinguere da termini simili

Applicazioni del mondo reale

Strumenti e tecnologie

Leggi altri blog

Unisciti alla comunità di Ultralytics

Addestra i modelli YOLO semplicemente
con Ultralytics HUB