Applicazioni della visione artificiale spiegate

Che cos'è la computer vision?

I modelli di visione supportano diverse attività di visione computerizzata

Classificazione delle immagini

Rilevamento degli oggetti

Segmentazione semantica e di istanza

Stima della posa

Rilevamento di oggetti con rettangoli di selezione orientati

Tracciamento dell'oggetto

Uno sguardo finale alla computer vision

Quando abbiamo esplorato la storia dei modelli di computer vision, abbiamo visto come si è evoluta la computer vision e il percorso che ha portato ai modelli di visione avanzati che abbiamo oggi. I modelli moderni, come Ultralytics YOLOv8, supportano molteplici compiti di computer vision e vengono utilizzati in diverse applicazioni interessanti.

In questo articolo daremo uno sguardo alle basi della computer vision e dei modelli di visione. Ci occuperemo del loro funzionamento e delle loro diverse applicazioni in vari settori. Le innovazioni della computer vision sono ovunque e stanno silenziosamente plasmando il nostro mondo. Scopriamole una per una!

Che cos'è la computer vision?

L'intelligenza artificiale (AI) è un termine generico che comprende molte tecnologie che mirano a replicare una parte dell'intelligenza umana. Uno di questi sottocampi dell'IA è la computer vision. La computer vision si concentra sulla capacità delle macchine di vedere, osservare e comprendere l'ambiente circostante.

Proprio come la visione umana, le soluzioni di computer vision mirano a distinguere gli oggetti, calcolare le distanze e rilevare i movimenti. Tuttavia, a differenza degli esseri umani, che hanno una vita di esperienze che li aiutano a vedere e capire, i computer si basano su grandi quantità di dati, telecamere ad alta definizione e algoritmi complessi.

__wf_reserved_inherit — Figura 1. Confronto tra visione umana e visione computerizzata.

‍

I sistemi di visione artificiale sono in grado di elaborare e analizzare dati visivi come immagini e video a velocità e precisione incredibili. La capacità di analizzare rapidamente e con precisione grandi quantità di informazioni visive rende la computer vision uno strumento potente in diversi settori, dalla produzione alla sanità.

I modelli di visione supportano diverse attività di visione computerizzata

I modelli di computer vision sono il cuore di qualsiasi applicazione di computer vision. Si tratta essenzialmente di algoritmi computazionali alimentati da tecniche di apprendimento profondo, progettati per dare alle macchine la capacità di interpretare e comprendere le informazioni visive. I modelli di visione consentono di svolgere attività cruciali di computer vision, dalla classificazione delle immagini al rilevamento degli oggetti. Vediamo nel dettaglio alcuni di questi compiti e i loro casi d'uso.

Classificazione delle immagini

La classificazione delle immagini comporta la categorizzazione e l'etichettatura delle immagini in classi o categorie predefinite. Un modello di visione come YOLOv8 può essere addestrato su grandi insiemi di immagini etichettate. Durante l'addestramento, il modello impara a riconoscere i modelli e le caratteristiche associate a ciascuna classe. Una volta addestrato, può prevedere la categoria di nuove immagini non viste analizzando le loro caratteristiche e confrontandole con i modelli appresi.

‍

Esistono diversi tipi di classificazione delle immagini. Ad esempio, quando si tratta di immagini mediche, si può usare la classificazione binaria per dividere le immagini in due gruppi, come sani o malati. Un altro tipo è la classificazione multiclasse. Può aiutare a classificare le immagini in molti gruppi, ad esempio classificando i diversi animali di una fattoria come maiali, capre e mucche. Se invece si desidera classificare gli animali in gruppi e sottogruppi, come ad esempio classificare gli animali in mammiferi e uccelli e poi in specie come leoni, tigri, aquile e passeri, la classificazione gerarchica è l'opzione migliore.

Rilevamento degli oggetti

Il rilevamento degli oggetti è il processo di identificazione e localizzazione degli oggetti nelle immagini e nei fotogrammi video utilizzando la computer vision. Si compone di due attività: la localizzazione degli oggetti, che disegna i riquadri di delimitazione intorno agli oggetti, e la classificazione degli oggetti, che identifica la categoria di ciascun oggetto. Sulla base delle annotazioni dei riquadri di delimitazione, un modello di visione può imparare a riconoscere i modelli e le caratteristiche specifiche di ciascuna categoria di oggetti e prevedere la presenza e la posizione di tali oggetti in nuove immagini non viste.

‍

Il rilevamento degli oggetti ha molti casi d'uso in diversi settori, dallo sport alla biologia marina. Ad esempio, nel settore della vendita al dettaglio, la tecnologia Just Walk Out di Amazon utilizza il rilevamento degli oggetti per automatizzare le casse, identificando gli articoli prelevati dai clienti. Una combinazione di visione computerizzata e dati dei sensori consente ai clienti di prendere i loro articoli e andarsene senza fare la fila.

Ecco un'occhiata più da vicino a come funziona:

Le telecamere montate sul soffitto riprendono i clienti che si muovono all'interno del negozio e i filmati vengono elaborati in tempo reale dai modelli di visione.
‍
Il rilevamento degli oggetti viene utilizzato per individuare il prodotto esatto che il cliente prende e mette nel carrello per aggiornare di conseguenza il suo carrello virtuale.
‍
I sensori di peso sui ripiani migliorano la precisione rilevando la rimozione o la sostituzione degli articoli.
‍
Quando il cliente esce dal negozio, la tecnologia di rilevamento degli oggetti e di riconoscimento facciale può essere utilizzata per confermare che il cliente è uscito e i suoi dati di pagamento, come la carta di credito, possono essere utilizzati per addebitarglieli automaticamente.

Segmentazione semantica e di istanza

La segmentazione semantica e la segmentazione delle istanze sono attività di computer vision che aiutano a suddividere le immagini in segmenti significativi. La segmentazione semantica classifica i pixel in base al loro significato semantico e tratta tutti gli oggetti all'interno di una categoria come una singola entità con la stessa etichetta. È adatta per etichettare oggetti non numerabili come "il cielo" o "l'oceano" o cluster come "foglie" o "erba".

La segmentazione delle istanze, invece, è in grado di distinguere le diverse istanze della stessa classe assegnando un'etichetta unica a ciascun oggetto rilevato. È possibile utilizzare la segmentazione delle istanze per segmentare gli oggetti conteggiabili, quando il numero e l'indipendenza degli oggetti sono importanti. Consente un'identificazione e una differenziazione più precisa.

‍

Possiamo capire meglio il contrasto tra segmentazione semantica e istanza con un esempio relativo alle auto a guida autonoma. La segmentazione semantica è ideale per compiti che richiedono la comprensione dei contenuti di una scena e può essere utilizzata nei veicoli autonomi per classificare le caratteristiche della strada, come gli attraversamenti pedonali e i segnali stradali. La segmentazione istintiva, invece, può essere utilizzata nei veicoli autonomi per identificare i singoli pedoni, i veicoli e gli ostacoli.

Stima della posa

La stima della posa è un'attività di computer vision incentrata sul rilevamento e il tracciamento dei punti chiave della posa di un oggetto in immagini o video. È più comunemente usata per la stima della posa umana, con punti chiave che includono aree come le spalle e le ginocchia. La stima della posa di un essere umano ci aiuta a comprendere e riconoscere azioni e movimenti che sono fondamentali per varie applicazioni.

‍

La stima della posa può essere utilizzata nello sport per analizzare i movimenti degli atleti. L'NBA utilizza la stima della posa per studiare i movimenti e le posizioni dei giocatori durante la partita. Tracciando punti chiave come spalle, gomiti, ginocchia e caviglie, la stima della posa fornisce informazioni dettagliate sui movimenti dei giocatori. Questi dati aiutano gli allenatori a sviluppare strategie migliori, a ottimizzare i programmi di allenamento e ad apportare modifiche in tempo reale durante le partite. Inoltre, i dati possono aiutare a monitorare l'affaticamento dei giocatori e il rischio di infortuni, per migliorare la salute e le prestazioni complessive dei giocatori.

Rilevamento di oggetti con rettangoli di selezione orientati

L'OBB (Oriented Bounding Boxes Object Detection ) utilizza rettangoli ruotati per identificare e localizzare con precisione gli oggetti in un'immagine. A differenza dei rettangoli di delimitazione standard che si allineano agli assi dell'immagine, gli OBB ruotano per adattarsi all'orientamento dell'oggetto. Questo li rende particolarmente utili per gli oggetti che non sono perfettamente orizzontali o verticali. Sono ideali per individuare e isolare con precisione gli oggetti ruotati, per evitare sovrapposizioni in ambienti affollati.

‍

Nella sorveglianza marittima, l'identificazione e il tracciamento delle navi sono fondamentali per la sicurezza e la gestione delle risorse. Il rilevamento OBB può essere utilizzato per localizzare con precisione le navi, anche quando sono densamente stipate o orientate in modo diverso. Aiuta a monitorare le rotte di navigazione, a gestire il traffico marittimo e a ottimizzare le operazioni portuali. Può anche contribuire alla risposta ai disastri, identificando e valutando rapidamente i danni alle navi e alle infrastrutture dopo eventi come uragani o fuoriuscite di petrolio.

Tracciamento dell'oggetto

Finora abbiamo parlato di compiti di computer vision che riguardano le immagini. Il tracciamento degli oggetti è un'attività di computer vision in grado di seguire un oggetto nel corso dei fotogrammi di un video. Inizia identificando l'oggetto nel primo fotogramma mediante algoritmi di rilevamento e poi ne segue continuamente la posizione mentre si muove nel video. Il tracciamento dell'oggetto coinvolge tecniche come il rilevamento dell'oggetto, l'estrazione delle caratteristiche e la previsione del movimento per mantenere il tracciamento accurato.

‍

I modelli di visione come YOLOv8 possono essere utilizzati per seguire i pesci nella biologia marina. Utilizzando telecamere subacquee, i ricercatori possono monitorare i movimenti e i comportamenti dei pesci nei loro habitat naturali. Il processo inizia con l'individuazione dei singoli pesci nei primi fotogrammi e segue poi la loro posizione nel corso del video. Il monitoraggio dei pesci aiuta gli scienziati a comprendere i modelli di migrazione, i comportamenti sociali e le interazioni con l'ambiente. Inoltre, fornisce informazioni sulla distribuzione e l'abbondanza dei pesci e favorisce pratiche di pesca sostenibili.

Uno sguardo finale alla computer vision

La computer vision sta cambiando attivamente il modo in cui utilizziamo la tecnologia e interagiamo con il mondo. Utilizzando modelli di deep learning e algoritmi complessi per comprendere immagini e video, la computer vision aiuta le industrie a semplificare molti processi. Le attività di computer vision, come il rilevamento e il tracciamento degli oggetti, rendono possibile la creazione di soluzioni mai immaginate prima. Con il continuo miglioramento della tecnologia di visione artificiale, il futuro ci riserva molte altre applicazioni innovative!

Impariamo e cresciamo insieme! Esplorate il nostro repository GitHub per vedere i nostri contributi all'IA. Scoprite come stiamo ridefinendo settori come le auto a guida autonoma e l'agricoltura grazie all'IA. 🚀

Esplorare il funzionamento delle applicazioni della computer vision

Che cos'è la computer vision?

I modelli di visione supportano diverse attività di visione computerizzata

Classificazione delle immagini

Rilevamento degli oggetti

Segmentazione semantica e di istanza

Stima della posa

Rilevamento di oggetti con rettangoli di selezione orientati

Tracciamento dell'oggetto

Uno sguardo finale alla computer vision

Per saperne di più in questa categoria

Migliorare la sorveglianza intelligente con Ultralytics YOLO11

Attivate la tecnologia di fitness intelligente con Ultralytics YOLO11

Come effettuare il benchmark dei modelli YOLO di Ultralytics come YOLO11

Costruiamo insieme il futuro
dell'IA!

Esplorare il funzionamento delle applicazioni della computer vision

Che cos'è la computer vision?

I modelli di visione supportano diverse attività di visione computerizzata

Classificazione delle immagini

Rilevamento degli oggetti

Segmentazione semantica e di istanza

Stima della posa

Rilevamento di oggetti con rettangoli di selezione orientati

Tracciamento dell'oggetto

Uno sguardo finale alla computer vision

Per saperne di più in questa categoria

Migliorare la sorveglianza intelligente con Ultralytics YOLO11

Attivate la tecnologia di fitness intelligente con Ultralytics YOLO11

Come effettuare il benchmark dei modelli YOLO di Ultralytics come YOLO11

Costruiamo insieme il futuro dell'IA!

Costruiamo insieme il futuro
dell'IA!