Controllo verde
Link copiato negli appunti

Una guida per un'immersione profonda nel rilevamento degli oggetti nel 2025

Scopri il rilevamento degli oggetti, la sua importanza nell'IA e come modelli come YOLO11 stanno trasformando settori come quello delle auto a guida autonoma, della sanità e della sicurezza.

Molti settori stanno rapidamente integrando soluzioni di intelligenza artificiale (AI) nelle loro attività. Tra le tante tecnologie di IA disponibili oggi, la computer vision è una delle più popolari. La computer vision è una branca dell'IA che aiuta i computer a vedere e comprendere i contenuti di immagini e video, proprio come fanno gli esseri umani. Le macchine possono riconoscere gli oggetti, identificare gli schemi e dare un senso a ciò che guardano. 

Si stima che il valore del mercato globale della computer vision crescerà fino a 175,72 miliardi di dollari entro il 2032. La computer vision comprende diverse attività che consentono ai sistemi di intelligenza artificiale di analizzare e interpretare i dati visivi. Uno dei compiti più utilizzati ed essenziali della computer vision è il rilevamento degli oggetti. 

Il rilevamento degli oggetti si concentra sulla localizzazione e sulla classificazione degli oggetti nei dati visivi. Ad esempio, se mostri al computer l'immagine di una mucca, il computer è in grado di individuare la mucca e di disegnare un rettangolo di selezione intorno ad essa. Questa capacità è utile in applicazioni reali come il monitoraggio degli animali, le auto a guida autonoma e la sorveglianza. 

Quindi, come si può effettuare il rilevamento degli oggetti? Un modo è quello di utilizzare modelli di visione al computer. Ad esempio, Ultralytics YOLO11 è un modello di computer vision che supporta attività di computer vision come il rilevamento degli oggetti. 

In questa guida esploreremo il rilevamento degli oggetti e il suo funzionamento. Parleremo anche di alcune applicazioni reali del rilevamento degli oggetti e di Ultralytics YOLO11.

Figura 1. Utilizzo del supporto di YOLO11per il rilevamento degli oggetti per monitorare il bestiame.

Che cos'è il rilevamento degli oggetti? 

Il rilevamento degli oggetti è un'attività di computer vision che identifica e localizza gli oggetti nelle immagini o nei video. Risponde a due domande chiave: Quali oggetti sono presenti nell'immagine?" e "Dove si trovano?".

Si può pensare al rilevamento degli oggetti come a un processo che prevede due fasi fondamentali. La prima, la classificazione degli oggetti, consente al sistema di riconoscere ed etichettare gli oggetti, come ad esempio l'identificazione di un gatto, di un'auto o di una persona sulla base di modelli appresi. La seconda, la localizzazione, determina la posizione dell'oggetto disegnando un riquadro di delimitazione intorno ad esso, indicando dove appare nell'immagine. Insieme, queste fasi consentono alle macchine di individuare e comprendere gli oggetti in una scena.

L'aspetto del rilevamento degli oggetti che lo rende unico è la sua capacità di riconoscere gli oggetti e di individuare con precisione la loro posizione. Altre attività di computer vision si concentrano su obiettivi diversi.

Ad esempio, la classificazione delle immagini assegna un'etichetta a un'intera immagine. Nel frattempo, la segmentazione delle immagini fornisce una comprensione a livello di pixel dei diversi elementi. D'altra parte, il rilevamento degli oggetti combina il riconoscimento con la localizzazione. Questo lo rende particolarmente utile per compiti come il conteggio di più oggetti in tempo reale.

Figura 2. Confronto tra i compiti di computer vision.

Riconoscimento dell'oggetto vs. rilevamento dell'oggetto

Esplorando i vari termini di computer vision, potresti pensare che il riconoscimento degli oggetti e il rilevamento degli oggetti siano intercambiabili, ma hanno scopi diversi. Un ottimo modo per capire la differenza è osservare il rilevamento e il riconoscimento dei volti.

Il rilevamento dei volti è un tipo di rilevamento degli oggetti. Identifica la presenza di un volto in un'immagine e ne segna la posizione utilizzando un rettangolo di selezione. Risponde alla domanda: "Dove si trova il volto nell'immagine?". Questa tecnologia è comunemente utilizzata nelle fotocamere degli smartphone che mettono a fuoco automaticamente i volti o nelle telecamere di sicurezza che rilevano la presenza di una persona.

Il riconoscimento dei volti, invece, è una forma di riconoscimento degli oggetti. Non si limita a rilevare un volto, ma identifica di chi si tratta analizzando le caratteristiche uniche e confrontandole con un database. Risponde alla domanda: "Chi è questa persona?". È la tecnologia alla base dello sblocco del telefono con Face ID o dei sistemi di sicurezza aeroportuale che verificano l'identità.

In poche parole, il rilevamento degli oggetti trova e localizza gli oggetti, mentre il riconoscimento degli oggetti li classifica e li identifica. 

Figura 3. Rilevamento di oggetti e riconoscimento di oggetti. Immagine dell'autore.

Molti modelli di rilevamento degli oggetti, come YOLO11, sono progettati per supportare il rilevamento dei volti ma non il loro riconoscimento. YOLO11 è in grado di identificare in modo efficiente la presenza di un volto in un'immagine e di disegnare un riquadro di delimitazione attorno ad esso, rendendolo utile per applicazioni come i sistemi di sorveglianza, il monitoraggio della folla e l'etichettatura automatica delle foto. Tuttavia, non è in grado di determinare di chi sia il volto. YOLO11 può essere integrato con modelli addestrati specificamente per il riconoscimento dei volti, come Facenet o DeepFace, per consentire sia il rilevamento che l'identificazione in un unico sistema.

Capire come funziona il rilevamento degli oggetti

Prima di parlare di come funziona il rilevamento degli oggetti, diamo un'occhiata più da vicino a come un computer analizza un'immagine. Invece di vedere un'immagine come noi, un computer la scompone in una griglia di piccoli quadrati chiamati pixel. Ogni pixel contiene informazioni sul colore e sulla luminosità che i computer possono elaborare per interpretare i dati visivi.

Per dare un senso a questi pixel, gli algoritmi li raggruppano in regioni significative in base alla forma, al colore e alla loro vicinanza. I modelli di rilevamento degli oggetti, come YOLO11, possono riconoscere schemi o caratteristiche in questi gruppi di pixel. 

Ad esempio, un'auto a guida autonoma non vede un pedone come lo vediamo noi: rileva forme e modelli che corrispondono alle caratteristiche di un pedone. Questi modelli si basano su un'ampia formazione con set di immagini etichettate, che consente loro di apprendere le caratteristiche distintive di oggetti come automobili, segnali stradali e persone.

Un tipico modello di rilevamento degli oggetti è composto da tre parti fondamentali: la spina dorsale, il collo e la testa. La spina dorsale estrae le caratteristiche importanti da un'immagine. Il collo elabora e perfeziona queste caratteristiche, mentre la testa è responsabile della previsione della posizione degli oggetti e della loro classificazione.

Affinare i rilevamenti e presentare i risultati

Una volta effettuate le rilevazioni iniziali, vengono applicate tecniche di post-elaborazione per migliorare l'accuratezza e filtrare le previsioni ridondanti. Ad esempio, vengono rimossi i riquadri di delimitazione che si sovrappongono, assicurando che vengano mantenuti solo i rilevamenti più rilevanti. Inoltre, vengono assegnati dei punteggi di confidenza (valori numerici che rappresentano quanto il modello è sicuro che un oggetto rilevato appartenga a una certa classe) a ogni oggetto rilevato per indicare la certezza del modello nelle sue previsioni.

Infine, l'output viene presentato con caselle di delimitazione disegnate intorno agli oggetti rilevati, insieme alle etichette di classe e ai punteggi di confidenza previsti. Questi risultati possono essere utilizzati per applicazioni reali.

Modelli di rilevamento degli oggetti più diffusi 

Al giorno d'oggi sono disponibili molti modelli di computer vision e alcuni dei più popolari sono i modelliUltralytics YOLO . Sono noti per la loro velocità, precisione e versatilità. Nel corso degli anni, questi modelli sono diventati più veloci, più precisi e in grado di gestire una gamma più ampia di compiti. Il rilascio di Ultralytics YOLOv5 ha reso più semplice l'implementazione di framework come PyTorch, consentendo a un maggior numero di persone di utilizzare l'IA di visione avanzata senza dover disporre di competenze tecniche approfondite.

Partendo da queste basi, Ultralytics YOLOv8 ha introdotto nuove funzionalità come la segmentazione delle istanze, la stima della posa e la classificazione delle immagini. Ora, YOLO11 si spinge ancora più in là con prestazioni migliori su più compiti. Con il 22% di parametri in meno rispetto a YOLOv8m, YOLO11m raggiunge una precisione media superiore (mAP) sul dataset COCO. In parole povere, YOLO11 è in grado di riconoscere gli oggetti con maggiore precisione utilizzando meno risorse, il che lo rende più veloce e affidabile.

Che tu sia un esperto di intelligenza artificiale o che tu abbia appena iniziato, YOLO11 offre una soluzione potente ma facile da usare per le applicazioni di computer vision.

Addestramento personalizzato di un modello per il rilevamento degli oggetti

L'addestramento dei modelli di Vision AI consiste nell'aiutare i computer a riconoscere e comprendere immagini e video. Tuttavia, la formazione può essere un processo che richiede molto tempo. Invece di partire da zero, l'apprendimento per trasferimento accelera le cose utilizzando modelli pre-addestrati che riconoscono già modelli comuni.

Ad esempio, YOLO11 è già stato addestrato sul set di dati COCO, che contiene una serie di oggetti di uso quotidiano. Questo modello pre-addestrato può essere ulteriormente personalizzato per rilevare oggetti specifici che potrebbero non essere inclusi nel dataset originale. 

Per addestrare YOLO11 in modo personalizzato, hai bisogno di un set di dati etichettati che contenga le immagini degli oggetti che vuoi rilevare. Ad esempio, se vuoi costruire un modello per identificare i diversi tipi di frutta in un negozio di alimentari, devi creare un dataset con immagini etichettate di mele, banane, arance, ecc. Una volta preparato il set di dati, YOLO11 può essere addestrato, regolando parametri come la dimensione del batch, il tasso di apprendimento e le epoche per ottimizzare le prestazioni.

Con questo approccio, le aziende possono addestrare YOLO11 a rilevare qualsiasi cosa, dai pezzi difettosi nella produzione alle specie selvatiche nei progetti di conservazione, adattando il modello alle loro esatte esigenze.

Applicazioni del rilevamento di oggetti

Diamo quindi un'occhiata ad alcuni casi d'uso reali del rilevamento degli oggetti e a come sta trasformando diversi settori.

Rilevamento dei pericoli per la guida autonoma

Le auto a guida autonoma utilizzano compiti di computer vision come il rilevamento degli oggetti per navigare in sicurezza ed evitare gli ostacoli. Questa tecnologia le aiuta a riconoscere i pedoni, gli altri veicoli, le buche e i pericoli della strada, consentendo loro di comprendere meglio l'ambiente circostante. Possono prendere decisioni rapide e muoversi in sicurezza nel traffico analizzando costantemente l'ambiente circostante.

Figura 4. Un esempio di utilizzo del rilevamento di oggetti per individuare le buche con YOLO11.

Analisi delle immagini mediche nell'assistenza sanitaria

Le tecniche di imaging medico come i raggi X, la risonanza magnetica, la TAC e gli ultrasuoni creano immagini altamente dettagliate del corpo umano per aiutare a diagnosticare e curare le malattie. Queste scansioni producono grandi quantità di dati che i medici, come i radiologi e i patologi, devono analizzare attentamente per individuare le malattie. Tuttavia, esaminare ogni immagine nel dettaglio può richiedere molto tempo e gli esperti umani possono a volte perdere dei dettagli a causa della stanchezza o della mancanza di tempo.

I modelli di rilevamento degli oggetti come YOLO11 possono aiutare a identificare automaticamente le caratteristiche chiave delle scansioni mediche, come organi, tumori o anomalie, con un'elevata precisione. I modelli addestrati su misura possono evidenziare le aree di interesse con riquadri di delimitazione, aiutando i medici a concentrarsi più rapidamente sui potenziali problemi. In questo modo si riduce il carico di lavoro, si migliora l'efficienza e si ottengono informazioni rapide.

Figura 5. Analisi delle immagini mediche con YOLO11.

Aumenta la sicurezza con il rilevamento delle persone e delle anomalie

Il tracciamento degli oggetti è un'attività di computer vision supportata da YOLO11, che consente il monitoraggio in tempo reale e migliora la sicurezza. Si basa sul rilevamento degli oggetti identificando gli oggetti e tracciando continuamente il loro movimento attraverso i fotogrammi. Questa tecnologia è ampiamente utilizzata nei sistemi di sorveglianza per migliorare la sicurezza in vari ambienti.

Ad esempio, nelle scuole e negli asili nido, il tracciamento degli oggetti può aiutare a monitorare i bambini e a evitare che si allontanino. Nelle applicazioni di sicurezza, svolge un ruolo fondamentale nell'individuazione di intrusi in aree riservate, nel monitoraggio delle folle per individuare eventuali sovraffollamenti o comportamenti sospetti e nell'invio di avvisi in tempo reale quando vengono rilevate attività non autorizzate. Tenendo traccia degli oggetti mentre si muovono, i sistemi di tracciamento YOLO11 migliorano la sicurezza, automatizzano il monitoraggio e consentono di reagire più rapidamente alle potenziali minacce.

Pro e contro del rilevamento degli oggetti

Ecco alcuni dei principali vantaggi che il rilevamento degli oggetti può apportare a diversi settori:

  • Automazione: Il rilevamento degli oggetti può aiutare a ridurre la necessità di una supervisione umana in attività come il monitoraggio dei filmati delle telecamere a circuito chiuso.
  • Funziona con altri modelli di intelligenza artificiale: Può essere integrato con sistemi di riconoscimento facciale, di riconoscimento delle azioni e di tracciamento per migliorare l'accuratezza e la funzionalità.
  • Elaborazione in tempo reale: Molti modelli di rilevamento degli oggetti, come YOLO11, sono veloci ed efficienti, il che li rende ideali per le applicazioni in tempo reale che richiedono risultati immediati. 

Se da un lato questi vantaggi evidenziano l'impatto del rilevamento degli oggetti su diversi casi d'uso, dall'altro è importante considerare le sfide che comporta la sua implementazione. Ecco alcune delle sfide principali:

  • Privacy dei dati: L'uso di dati visivi, soprattutto in aree sensibili come la sorveglianza o l'assistenza sanitaria, può sollevare problemi di privacy e di sicurezza.
  • Occlusione: L'occlusione nel rilevamento degli oggetti si verifica quando questi sono parzialmente bloccati o nascosti alla vista, rendendo difficile per il modello rilevarli e classificarli con precisione.
  • Costoso dal punto di vista computazionale: i modelli ad alte prestazioni spesso richiedono potenti GPU (Graphics Processing Units) per l'elaborazione, rendendo costosa l'implementazione in tempo reale.

Punti di forza

Il rilevamento degli oggetti è uno strumento rivoluzionario della computer vision che aiuta le macchine a individuare e localizzare gli oggetti nelle immagini e nei video. Viene utilizzato in settori che vanno dalle auto a guida autonoma all'assistenza sanitaria, rendendo le attività più semplici, sicure ed efficienti. Con i modelli più recenti come YOLO11, le aziende possono creare facilmente modelli di rilevamento degli oggetti personalizzati per creare applicazioni di computer vision specializzate. 

Anche se ci sono alcune sfide, come i problemi di privacy e gli oggetti nascosti alla vista, il rilevamento degli oggetti è una tecnologia affidabile. La sua capacità di automatizzare le attività, elaborare i dati visivi in tempo reale e integrarsi con altri strumenti di Vision AI la rende una parte essenziale delle innovazioni all'avanguardia.

Per saperne di più, visita il nostro repository GitHub e partecipa alla nostra comunità. Esplora le innovazioni in settori come l'IA nelle auto a guida autonoma e la computer vision in agricoltura sulle nostre pagine dedicate alle soluzioni. Scopri le nostre opzioni di licenza yolo e dai vita ai tuoi progetti di Vision AI. 🚀

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico