Controllo verde
Link copiato negli appunti

Esplorare i migliori dataset di computer vision nel 2025

Unisciti a noi per dare un'occhiata ai migliori dataset di computer vision del 2025. Scopri come i set di dati diversificati e di alta qualità permettono di creare soluzioni di IA di visione più intelligenti.

Sapevi che i dati giocano un ruolo importante in quasi tutte le tue attività quotidiane? Guardare un video, scattare una foto o controllare Google Maps contribuisce al flusso costante di informazioni acquisite da oltre 75 miliardi di dispositivi connessi. Questi dati costituiscono la base dell'intelligenza artificiale (AI). Infatti, modelli avanzati di visione artificiale come Ultralytics YOLO11 si basano sui dati visivi per identificare schemi, interpretare immagini e dare un senso al mondo che ci circonda.

È interessante notare che il valore dei dati non riguarda solo la quantità. È più importante il modo in cui sono organizzati e preparati. Se un set di dati è disordinato o incompleto, può portare a degli errori. Tuttavia, quando i set di dati sono puliti e diversificati, aiutano i modelli di computer vision a funzionare meglio, sia che si tratti di riconoscere oggetti in mezzo alla folla o di analizzare immagini complesse. I set di dati di alta qualità fanno la differenza.

In questo articolo esploreremo i migliori dataset di computer vision del 2025 e vedremo come contribuiscono a costruire modelli di computer vision più accurati ed efficienti. Iniziamo!

Cosa sono i dataset di computer vision?

Un dataset di computer vision è una raccolta di immagini o video che aiutano i sistemi di computer vision a imparare a comprendere e riconoscere le informazioni visive. Questi set di dati sono dotati di etichette o annotazioni che aiutano i modelli a riconoscere oggetti, persone, scene e modelli all'interno dei dati.

Possono essere utilizzati per addestrare i modelli di visione artificiale, aiutandoli a migliorare compiti come l'identificazione di volti, il rilevamento di oggetti o l'analisi di scene. Migliore è il set di dati - ben organizzati, diversificati e accurati - migliori saranno le prestazioni del modello di Vision AI, che porterà a una tecnologia più intelligente e utile nella vita di tutti i giorni.

Come costruire un set di dati di computer vision

Costruire un set di dati di computer vision è come preparare gli appunti di studio per insegnare a qualcuno come vedere e capire il mondo. Tutto inizia con la raccolta di immagini e video che corrispondono all'applicazione specifica che stai sviluppando. 

Un set di dati ideale comprende esempi diversi di oggetti di interesse, ripresi da diverse angolazioni, in varie condizioni di illuminazione e su più sfondi e ambienti. Questa varietà fa sì che il modello di visione computerizzata impari a riconoscere i modelli in modo accurato e si comporti in modo affidabile negli scenari del mondo reale.

Figura 1. Costruzione del set di dati per la visione perfetta. Immagine dell'autore.

Dopo aver raccolto immagini e video rilevanti, il passo successivo è l'etichettatura dei dati. Questo processo prevede l'aggiunta di tag, annotazioni o descrizioni ai dati in modo che l'intelligenza artificiale possa capire cosa contiene ogni immagine o video. 

Le etichette possono includere nomi di oggetti, posizioni, confini o altri dettagli rilevanti che aiutano ad addestrare il modello a riconoscere e interpretare accuratamente le informazioni visive. L'etichettatura dei dati trasforma una semplice raccolta di immagini in un set di dati strutturato che può essere utilizzato per addestrare un modello di computer vision.

La formazione del modello richiede dati di alta qualità

Forse ti starai chiedendo cosa rende un set di dati di alta qualità. Ci sono molti fattori in gioco, come l'accuratezza dell'etichettatura, la diversità e la coerenza. Ad esempio, se più annotatori etichettano un dataset di rilevamento di oggetti per identificare le orecchie di un gatto, uno potrebbe etichettarle come parte della testa mentre un altro le etichetta separatamente come orecchie. Questa incoerenza può confondere il modello e compromettere la sua capacità di apprendere correttamente.

Ecco una rapida panoramica delle qualità di un set di dati ideale per la computer vision:

  • Etichette chiare: Ogni immagine è accuratamente annotata con etichette coerenti e precise.
  • Dati diversificati: Il set di dati include diversi oggetti, sfondi, condizioni di luce e angolazioni per aiutare il modello a funzionare bene in varie situazioni.
  • Immagini ad alta risoluzione: Immagini nitide e dettagliate facilitano l'apprendimento e il riconoscimento delle caratteristiche da parte del modello.

Ultralytics supporta diversi set di dati

I modelliYOLO Ultralytics , come YOLO11, sono costruiti per funzionare con set di dati in uno specifico formato di file YOLO . Sebbene sia facile convertire i tuoi dati in questo formato, offriamo anche un'opzione senza problemi per chi vuole iniziare subito a sperimentare. 

Il pacchettoUltralytics Python supporta un'ampia gamma di set di dati di computer vision, consentendoti di immergerti in progetti che prevedono attività come il rilevamento di oggetti, la segmentazione di istanze o la stima della posa senza alcuna configurazione aggiuntiva.  

Gli utenti possono accedere facilmente a dataset pronti all'uso come COCO, DOTA-v2.0, Open Images V7 e ImageNet specificando il nome del dataset come uno dei parametri della funzione di addestramento. In questo modo, il dataset viene scaricato automaticamente e preconfigurato, in modo che tu possa concentrarti sulla costruzione e sul perfezionamento dei tuoi modelli.

I 5 principali dataset di computer vision nel 2025

I progressi nell'IA della visione si basano su set di dati diversificati e su larga scala che guidano l'innovazione e consentono di fare passi da gigante. Diamo un'occhiata ad alcuni dei più importanti set di dati, supportati da Ultralytics, che stanno influenzando i modelli di visione artificiale.

Set di dati ImageNet 

ImageNet, creato da Fei-Fei Li e dal suo team dell'Università di Princeton nel 2007 e presentato nel 2009, è un grande dataset con oltre 14 milioni di immagini etichettate. È molto utilizzato per addestrare sistemi di riconoscimento e categorizzazione di oggetti diversi. Il suo design strutturato lo rende particolarmente utile per insegnare ai modelli a classificare le immagini in modo accurato. Pur essendo ben documentato, si concentra principalmente sulla classificazione delle immagini e manca di annotazioni dettagliate per compiti come il rilevamento degli oggetti. 

Ecco una panoramica di alcuni dei principali punti di forza di ImageNet:

  • Diversità: Con immagini che coprono oltre 20.000 categorie, ImageNet offre un set di dati vasto e vario che migliora la formazione e la generalizzazione dei modelli.
  • Organizzazione strutturata: Le immagini vengono categorizzate in modo meticoloso utilizzando la gerarchia WordNet, facilitando il recupero efficiente dei dati e l'addestramento sistematico dei modelli. 
  • Documentazione completa: Ricerche approfondite e anni di studi rendono ImageNet accessibile sia ai principianti che agli esperti, fornendo preziosi spunti e indicazioni per i progetti di computer vision.

Tuttavia, come ogni serie di dati, ha i suoi limiti. Ecco alcune delle sfide da considerare:

  • Esigenze di calcolo: Le sue dimensioni enormi possono rappresentare una sfida per i team più piccoli con risorse di calcolo limitate.
  • Mancanza di dati temporali: Poiché contiene solo immagini statiche, potrebbe non soddisfare le esigenze delle applicazioni che richiedono dati video o temporali.
  • Immagini obsolete: Alcune immagini del set di dati sono vecchie e potrebbero non riflettere gli oggetti, gli stili o gli ambienti attuali, riducendo potenzialmente la rilevanza per le applicazioni moderne.

Set di dati DOTA-v2.0

Il set di dati DOTA-v2.0, dove DOTA è l'acronimo di Dataset for Object Detection in Aerial Images, è un'ampia raccolta di immagini aeree creata appositamente per il rilevamento degli oggetti oriented bounding box (OBB). Nel rilevamento OBB, i riquadri di delimitazione ruotati vengono utilizzati per allinearsi più accuratamente con l'orientamento reale degli oggetti nell'immagine. Questo metodo funziona particolarmente bene per le immagini aeree, dove gli oggetti appaiono spesso con diverse angolazioni, consentendo una localizzazione più precisa e un rilevamento complessivamente migliore.

Questo set di dati è composto da oltre 11.000 immagini e più di 1,7 milioni di bounding box orientati in 18 categorie di oggetti. Le immagini vanno da 800×800 a 20.000×20.000 pixel e comprendono oggetti come aerei, navi ed edifici. 

Figura 2. Esempi di immagini e annotazioni del dataset DOTA-v2.0. Immagine dell'autore.

Grazie alle sue annotazioni dettagliate, DOTA-v2.0 è diventato una scelta popolare per i progetti di telerilevamento e sorveglianza aerea. Ecco alcune delle caratteristiche principali di DOTA-v2.0:

  • Diverse categorie di oggetti: Copre molti tipi di oggetti diversi, come veicoli, porti e serbatoi, consentendo ai modelli di conoscere vari oggetti del mondo reale.
  • Annotazioni di alta qualità: Gli annotatori esperti hanno fornito dei riquadri di delimitazione orientati con precisione che mostrano chiaramente le forme e le direzioni degli oggetti.
  • Immagini multiscala: Il set di dati include immagini di diverse dimensioni, aiutando i modelli a imparare a rilevare gli oggetti sia su piccola che su grande scala.

Sebbene DOTA-v2 abbia molti punti di forza, ecco alcune limitazioni che gli utenti dovrebbero tenere a mente:

  • Passaggi extra per il download: A causa del modo in cui il set di dati DOTA viene mantenuto, DOTA-v2.0 richiede un'ulteriore fase di configurazione. Devi prima scaricare le immagini di DOTA-v1.0 e poi aggiungere le immagini extra e le annotazioni aggiornate per DOTA-v2.0 per completare il set di dati.
  • Annotazioni complesse: I riquadri di delimitazione orientati possono richiedere uno sforzo supplementare per essere gestiti durante l'addestramento del modello.
  • Ambito di applicazione limitato: DOTA-v2 è stato progettato per le immagini aeree, il che lo rende meno utile per compiti generali di rilevamento di oggetti al di fuori di questo ambito.

Set di dati Roboflow 100 

Il dataset Roboflow 100 (RF100) è stato creato da Roboflow con il supporto di Intel. Può essere utilizzato per testare e valutare il funzionamento dei modelli di rilevamento degli oggetti. Questo set di dati di riferimento comprende 100 diversi set di dati scelti tra oltre 90.000 set di dati pubblici. Contiene più di 224.000 immagini e 800 classi di oggetti provenienti da settori come l'assistenza sanitaria, le viste aeree e i giochi. 

Ecco alcuni dei principali vantaggi dell'utilizzo di RF100:

  • Ampia copertura del dominio: Include set di dati provenienti da sette settori, come l'imaging medico, le viste aeree e l'esplorazione subacquea. 
  • Incoraggia il miglioramento dei modelli: La variabilità e le sfide specifiche del dominio RF100 rivelano le lacune dei modelli attuali, spingendo la ricerca verso soluzioni di rilevamento degli oggetti più adattabili e robuste.
  • Formato immagine coerente: Tutte le immagini sono ridimensionate a 640x640 pixel. Questo aiuta gli utenti ad addestrare i modelli senza dover adattare le dimensioni delle immagini.

Nonostante i suoi punti di forza, l'RF100 presenta anche alcuni svantaggi da tenere in considerazione:

  • Limitato in termini di compiti: RF100 è stato progettato per il rilevamento di oggetti, quindi non può svolgere attività come la segmentazione o la classificazione.
  • Focus incentrato sui benchmark: RF100 è stato progettato principalmente come strumento di benchmarking piuttosto che per l'addestramento di modelli per applicazioni reali, quindi i suoi risultati potrebbero non essere completamente traducibili in scenari di implementazione pratica.
  • Variabilità delle annotazioni: Poiché RF100 aggrega insiemi di dati provenienti dalla folla, possono esserci incoerenze nella qualità delle annotazioni e nelle pratiche di etichettatura, che possono avere un impatto sulla valutazione e sulla messa a punto dei modelli.

Set di dati COCO (Oggetti comuni in contesto)

Il dataset COCO è uno dei dataset di computer vision più utilizzati e offre oltre 330.000 immagini con annotazioni dettagliate. È stato progettato per il rilevamento di oggetti, la segmentazione e la didascalia delle immagini, il che lo rende una risorsa preziosa per molti progetti. Le sue etichette dettagliate, compresi i riquadri di delimitazione e le maschere di segmentazione, aiutano i sistemi a imparare ad analizzare le immagini in modo preciso.

Questo set di dati è noto per la sua flessibilità ed è utile per diversi compiti, da progetti semplici a complessi. È diventato uno standard nel campo dell'IA di visione, spesso utilizzato in sfide e competizioni per valutare le prestazioni dei modelli.

Alcuni dei suoi punti di forza sono:

  • Dati diversificati e realistici: Il set di dati comprende immagini provenienti da scenari reali con più oggetti, occlusioni e condizioni di luce diverse.
  • Forte adozione da parte della comunità e della ricerca: Utilizzato nelle principali competizioni di apprendimento automatico e nella ricerca, il dataset COCO dispone di un'ampia documentazione, di modelli pre-addestrati e di un supporto attivo da parte della comunità.
  • Annotazioni ricche e dettagliate: Il set di dati COCO fornisce annotazioni molto dettagliate, tra cui la segmentazione degli oggetti, i punti chiave e le didascalie, rendendolo ideale per i progetti che richiedono una comprensione visiva precisa.

Ecco alcuni fattori limitanti di cui tenere conto:

  • Elevati requisiti computazionali: A causa delle sue dimensioni e della sua complessità, l'addestramento dei modelli su COCO può richiedere notevoli risorse di calcolo, il che lo rende difficile per i team con hardware limitato.
  • Sbilanciamento dei dati: Alcune categorie di oggetti hanno un numero di immagini significativamente maggiore rispetto ad altre, il che può portare a distorsioni nella formazione del modello.
  • Struttura complessa delle annotazioni: Le annotazioni dettagliate del set di dati, pur essendo preziose, possono risultare eccessivamente complesse per i principianti o per i team più piccoli che non hanno esperienza nel lavorare con i set di dati Vision AI strutturati.

Set di dati Open Images V7

Open Images V7 è un enorme set di dati open-source curato da Google, con oltre 9 milioni di immagini con annotazioni per 600 categorie di oggetti. Include una varietà di tipi di annotazioni ed è ideale per affrontare compiti di computer vision complessi. Le sue dimensioni e la sua profondità forniscono una risorsa completa per l'addestramento e il test dei modelli di computer vision.

Figura 3. Uno sguardo al set di dati Open Images V7. Immagine dell'autore.

Inoltre, la popolarità del dataset Open Images V7 nell'ambito della ricerca fornisce agli utenti numerose risorse ed esempi da cui imparare. Tuttavia, le sue dimensioni enormi possono rendere il download e l'elaborazione lunghi, soprattutto per i team più piccoli. Un altro problema è che alcune annotazioni possono essere incoerenti, il che richiede uno sforzo supplementare per ripulire i dati, e l'integrazione non è sempre perfetta, il che significa che potrebbe essere necessaria una preparazione aggiuntiva. 

Scegliere il set di dati giusto 

Scegliere il set di dati giusto è un aspetto fondamentale per il successo del tuo progetto di computer vision. La scelta migliore dipende dal tuo compito specifico: trovare una buona corrispondenza aiuta il tuo modello ad apprendere le giuste abilità. Inoltre, dovrebbe integrarsi facilmente con i tuoi strumenti, in modo che tu possa concentrarti maggiormente sulla creazione del modello e meno sulla risoluzione dei problemi.

Figura 4. Fattori per la scelta del giusto set di dati. Immagine dell'autore.

Punti di forza

I dataset di alta qualità sono la spina dorsale di qualsiasi modello di computer vision, in quanto aiutano i sistemi a imparare a interpretare le immagini in modo accurato. Gli insiemi di dati diversificati e ben annotati sono particolarmente importanti, in quanto consentono ai modelli di funzionare in modo affidabile in scenari reali e riducono gli errori causati da dati limitati o di scarsa qualità.

Ultralytics semplifica il processo di accesso e di lavoro con i dataset di computer vision, rendendo più facile trovare i dati giusti per il tuo progetto. La scelta del set di dati giusto è un passo fondamentale per costruire un modello ad alte prestazioni, che porti a risultati più precisi e d'impatto.

Unisciti alla nostra comunità ed esplora il nostro repository GitHub per saperne di più sull'IA. Scopri i progressi come la computer vision per l'assistenza sanitaria e l'IA nelle auto a guida autonoma nelle nostre pagine dedicate alle soluzioni. Scopri le nostre opzioni di licenza e fai il primo passo per iniziare a lavorare con la computer vision oggi stesso!

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico