Glossario

Visione artificiale (CV)

Sblocca il potenziale dell'intelligenza artificiale con la Computer Vision! Scopri il suo ruolo nel rilevamento degli oggetti, nella sanità, nelle auto a guida autonoma e non solo. Scopri di più ora!

La Computer Vision (CV) è un campo specializzato nell'ambito dell'Intelligenza Artificiale (AI) che consente a computer e sistemi di ricavare informazioni significative da immagini digitali, video e altri input visivi. In sostanza, mira a replicare la comprensione visiva umana, consentendo alle macchine di "vedere", interpretare e prendere decisioni basate sui dati visivi. Questo comporta l'elaborazione delle informazioni visive utilizzando algoritmi complessi e modelli di deep learning (DL) per riconoscere gli oggetti, comprendere le scene ed estrarre informazioni di alto livello. A differenza della semplice elaborazione delle immagini, che si concentra principalmente sul miglioramento o sulla manipolazione dei dati delle immagini (come la regolazione della luminosità o l'applicazione di filtri), la computer vision cerca di comprendere il contenuto e il contesto delle immagini.

Importanza dell'intelligenza artificiale e dell'apprendimento automatico

La Computer Vision è fondamentale per molti sistemi moderni di AI e Machine Learning (ML), in quanto fornisce le capacità necessarie alle macchine per interagire e comprendere il mondo fisico attraverso la percezione visiva. L'avvento di tecniche come le reti neurali convoluzionali (CNN), ispirate alla corteccia visiva umana, ha rivoluzionato la CV. Queste reti permettono ai modelli di apprendere automaticamente caratteristiche gerarchiche da grandi quantità di dati visivi, portando a miglioramenti significativi nell'accuratezza di vari compiti di computer vision. Questi progressi consentono di realizzare applicazioni sofisticate che prima erano irraggiungibili, rendendo la CV una pietra miliare dell'attuale sviluppo dell'IA e un fattore chiave per i casi d'uso dell'IA che trasformeranno il nostro futuro.

Concetti e compiti chiave

La computer vision comprende un'ampia gamma di attività volte a estrarre diversi tipi di informazioni dai dati visivi. Alcuni compiti fondamentali includono:

Classificazione delle immagini: Assegnare una singola etichetta o categoria a un'intera immagine (ad esempio, identificare un'immagine come contenente un "gatto" o un "cane"). Per questo compito vengono comunemente utilizzati dataset come ImageNet.
Rilevamento di oggetti: Identificare la presenza e la posizione di più oggetti all'interno di un'immagine, in genere disegnando dei riquadri di delimitazione intorno ad essi e assegnando etichette di classe (ad esempio, individuare tutte le "auto" e i "pedoni" in una scena stradale). Modelli come Ultralytics YOLO sono molto utilizzati per il rilevamento efficiente degli oggetti.
Segmentazione delle immagini: Classificare ogni pixel di un'immagine in modo che appartenga a un determinato oggetto o regione. Ciò fornisce una comprensione più dettagliata rispetto al rilevamento degli oggetti. I tipi di segmentazione includono la segmentazione semantica (etichettatura dei pixel in base alla categoria) e la segmentazione di istanza (differenziazione di singole istanze di oggetti all'interno della stessa categoria). Consulta una guida sulla segmentazione e il tracciamento delle istanze.
Stima della posa: Rilevamento della posizione e dell'orientamento dei punti chiave di un oggetto, spesso utilizzato per la stima della posa umana (identificazione delle articolazioni) o per il tracciamento di oggetti rigidi. Scopri la formazione personalizzata per la stima della posa del cane.
Tracciamento degli oggetti: Identificare e seguire oggetti specifici in più fotogrammi di una sequenza video. Questo combina il rilevamento degli oggetti con l'analisi temporale. Esplora il rilevamento e il tracciamento degli oggetti con Ultralytics YOLOv8.
Flusso ottico: stima del movimento degli oggetti o della telecamera tra fotogrammi consecutivi di un video.

Visione artificiale e campi affini

È utile distinguere la Computer Vision dalle discipline correlate:

Elaborazione delle immagini: Si concentra sulla manipolazione delle immagini a un livello inferiore, spesso come fase di pre-elaborazione per il CV. I compiti includono la riduzione del rumore, il miglioramento del contrasto e il filtraggio utilizzando librerie come OpenCV. L'elaborazione delle immagini modifica i pixel ma non interpreta necessariamente il contenuto dell'immagine. Per saperne di più sulle principali differenze tra Computer Vision ed elaborazione delle immagini.
Visione artificiale (MV): Pur sovrapponendosi alla CV, la MV si riferisce tipicamente all'applicazione della tecnologia di visione in ambito industriale per l'ispezione automatizzata, il controllo dei processi e la guida dei robot. I sistemi di visione industriale operano spesso in ambienti controllati con specifiche configurazioni di illuminazione e telecamere, puntando sull'affidabilità e sulla velocità per compiti specifici come l'ispezione della qualità nel settore manifatturiero. Maggiori informazioni sulla visione industriale.

Tecnologie e strutture

Lo sviluppo di applicazioni di computer vision si basa su diversi strumenti, librerie e framework:

Biblioteche: OpenCV (Open Source Computer Vision Library) è una libreria fondamentale che offre una vasta collezione di algoritmi per l'elaborazione delle immagini e per le classiche attività di CV. Altre librerie includono Pillow per la manipolazione delle immagini in Python e Scikit-image per gli algoritmi di elaborazione delle immagini.
Framework di apprendimento profondo: PyTorch e TensorFlow sono i principali framework per la creazione e l'addestramento di modelli di deep learning, compresi quelli utilizzati in CV.
Modelli: Modelli all'avanguardia come YOLO (You Only Look Once) forniscono un efficiente rilevamento degli oggetti in tempo reale. Architetture come ResNet sono comuni e i Vision Transformers (ViT) rappresentano una nuova classe di modelli che si sta affermando. Confronta le prestazioni di diversi modelliYOLO .
Piattaforme: Strumenti come Ultralytics HUB semplificano il processo di formazione, distribuzione e gestione dei modelli CV, offrendo funzionalità come la formazione in cloud e la gestione dei set di dati. Altre piattaforme come Roboflow e Weights & Biases offrono strumenti complementari per l'annotazione dei dati e il monitoraggio degli esperimenti.

Applicazioni del mondo reale

Le applicazioni di computer vision sono sempre più diffuse in vari settori:

Veicoli autonomi: Il CV è fondamentale per le auto a guida autonoma, in quanto consente loro di percepire l'ambiente circostante, rilevare i pedoni e gli altri veicoli, leggere i segnali stradali e navigare in sicurezza. Aziende come Waymo e Tesla fanno grande affidamento sui sistemi CV. Esplora le soluzioni di AI nel settore automobilistico.
Assistenza sanitaria: Nell'analisi delle immagini mediche, il CV aiuta i radiologi a rilevare anomalie come tumori o fratture in radiografie, TAC e risonanze magnetiche. Viene utilizzato anche nella chirurgia robotica e nel monitoraggio dei pazienti. Guarda la ricerca di Radiology: Intelligenza Artificiale. Scopri come YOLO11 viene utilizzato per il rilevamento dei tumori.
Sicurezza e sorveglianza: Il CV alimenta sistemi di monitoraggio automatizzati, rilevando intrusioni, tracciando individui e analizzando il comportamento della folla. Scopri come costruire un sistema di allarme di sicurezza.
Vendita al dettaglio: Le applicazioni includono la gestione dell'inventario tramite il monitoraggio degli scaffali, l'analisi del comportamento dei clienti e i sistemi di cassa senza cassiere come quelli di Amazon Go.
Produzione: Utilizzato per il controllo qualità, il rilevamento dei difetti, il monitoraggio delle catene di montaggio e l'automazione robotica. Scopri come realizzare soluzioni di produzione intelligenti con YOLO11.
Agricoltura: Consente un'agricoltura di precisione attraverso il monitoraggio delle colture, il rilevamento delle malattie, l'identificazione delle erbe infestanti e il raccolto automatizzato. Leggi il monitoraggio in tempo reale della salute delle colture.
Intrattenimento: Viene utilizzata nella produzione cinematografica per gli effetti speciali e la cattura del movimento e nei giochi per creare esperienze coinvolgenti. Esplora l'intelligenza artificiale nei videogiochi.

Visione artificiale (CV)

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Importanza dell'intelligenza artificiale e dell'apprendimento automatico

Concetti e compiti chiave

Visione artificiale e campi affini

Tecnologie e strutture

Applicazioni del mondo reale

Leggi altri blog

Unisciti alla comunità di Ultralytics

Visione artificiale (CV)

Addestra i modelli YOLO semplicementecon Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Importanza dell'intelligenza artificiale e dell'apprendimento automatico

Concetti e compiti chiave

Visione artificiale e campi affini

Tecnologie e strutture

Applicazioni del mondo reale

Leggi altri blog

Unisciti alla comunità di Ultralytics

Addestra i modelli YOLO semplicemente
con Ultralytics HUB