Glossario

Visione artificiale (CV)

Sblocca il potenziale dell'intelligenza artificiale con la Computer Vision! Scopri il suo ruolo nel rilevamento degli oggetti, nella sanità, nelle auto a guida autonoma e non solo. Scopri di più ora!

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La Computer Vision (CV) è un campo specializzato nell'ambito dell'Intelligenza Artificiale (AI) che consente a computer e sistemi di ricavare informazioni significative da immagini digitali, video e altri input visivi. In sostanza, mira a replicare la comprensione visiva umana, consentendo alle macchine di "vedere", interpretare e prendere decisioni basate sui dati visivi. Questo comporta l'elaborazione delle informazioni visive utilizzando algoritmi complessi e modelli di deep learning (DL) per riconoscere gli oggetti, comprendere le scene ed estrarre informazioni di alto livello. A differenza della semplice elaborazione delle immagini, che si concentra principalmente sul miglioramento o sulla manipolazione dei dati delle immagini (come la regolazione della luminosità o l'applicazione di filtri), la computer vision cerca di comprendere il contenuto e il contesto delle immagini.

Importanza dell'intelligenza artificiale e dell'apprendimento automatico

La Computer Vision è fondamentale per molti sistemi moderni di AI e Machine Learning (ML), in quanto fornisce le capacità necessarie alle macchine per interagire e comprendere il mondo fisico attraverso la percezione visiva. L'avvento di tecniche come le reti neurali convoluzionali (CNN), ispirate alla corteccia visiva umana, ha rivoluzionato la CV. Queste reti permettono ai modelli di apprendere automaticamente caratteristiche gerarchiche da grandi quantità di dati visivi, portando a miglioramenti significativi nell'accuratezza di vari compiti di computer vision. Questi progressi consentono di realizzare applicazioni sofisticate che prima erano irraggiungibili, rendendo la CV una pietra miliare dell'attuale sviluppo dell'IA e un fattore chiave per i casi d'uso dell'IA che trasformeranno il nostro futuro.

Concetti e compiti chiave

La computer vision comprende un'ampia gamma di attività volte a estrarre diversi tipi di informazioni dai dati visivi. Alcuni compiti fondamentali includono:

Visione artificiale e campi affini

È utile distinguere la Computer Vision dalle discipline correlate:

  • Elaborazione delle immagini: Si concentra sulla manipolazione delle immagini a un livello inferiore, spesso come fase di pre-elaborazione per il CV. I compiti includono la riduzione del rumore, il miglioramento del contrasto e il filtraggio utilizzando librerie come OpenCV. L'elaborazione delle immagini modifica i pixel ma non interpreta necessariamente il contenuto dell'immagine. Per saperne di più sulle principali differenze tra Computer Vision ed elaborazione delle immagini.
  • Visione artificiale (MV): Pur sovrapponendosi alla CV, la MV si riferisce tipicamente all'applicazione della tecnologia di visione in ambito industriale per l'ispezione automatizzata, il controllo dei processi e la guida dei robot. I sistemi di visione industriale operano spesso in ambienti controllati con specifiche configurazioni di illuminazione e telecamere, puntando sull'affidabilità e sulla velocità per compiti specifici come l'ispezione della qualità nel settore manifatturiero. Maggiori informazioni sulla visione industriale.

Tecnologie e strutture

Lo sviluppo di applicazioni di computer vision si basa su diversi strumenti, librerie e framework:

  • Biblioteche: OpenCV (Open Source Computer Vision Library) è una libreria fondamentale che offre una vasta collezione di algoritmi per l'elaborazione delle immagini e per le classiche attività di CV. Altre librerie includono Pillow per la manipolazione delle immagini in Python e Scikit-image per gli algoritmi di elaborazione delle immagini.
  • Framework di apprendimento profondo: PyTorch e TensorFlow sono i principali framework per la creazione e l'addestramento di modelli di deep learning, compresi quelli utilizzati in CV.
  • Modelli: Modelli all'avanguardia come YOLO (You Only Look Once) forniscono un efficiente rilevamento degli oggetti in tempo reale. Architetture come ResNet sono comuni e i Vision Transformers (ViT) rappresentano una nuova classe di modelli che si sta affermando. Confronta le prestazioni di diversi modelliYOLO .
  • Piattaforme: Strumenti come Ultralytics HUB semplificano il processo di formazione, distribuzione e gestione dei modelli CV, offrendo funzionalità come la formazione in cloud e la gestione dei set di dati. Altre piattaforme come Roboflow e Weights & Biases offrono strumenti complementari per l'annotazione dei dati e il monitoraggio degli esperimenti.

Applicazioni del mondo reale

Le applicazioni di computer vision sono sempre più diffuse in vari settori:

Leggi tutto