Glossario

Dati sintetici

Libera la potenza dei dati sintetici per l'AI/ML! Supera la scarsità di dati, i problemi di privacy e i costi e aumenta la formazione e l'innovazione dei modelli.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I dati sintetici si riferiscono a informazioni generate artificialmente che imitano le proprietà statistiche dei dati del mondo reale, anziché essere raccolte direttamente da eventi o misurazioni reali. Nei campi dell'Intelligenza Artificiale (AI) e dell'Apprendimento Automatico (ML), i dati sintetici rappresentano un'alternativa o un'integrazione fondamentale ai dati di addestramento reali. Sono particolarmente preziosi quando la raccolta di dati reali sufficienti è difficile, costosa, richiede tempo(Guida alla raccolta e all'annotazione dei dati) o solleva problemi di privacy. Queste informazioni create artificialmente aiutano ad addestrare modelli come Ultralytics YOLO, testare i sistemi ed esplorare scenari che potrebbero essere rari o pericolosi nella realtà, favorendo l'innovazione e le prestazioni dei modelli.

Come vengono creati i dati sintetici

La generazione di dati sintetici impiega diverse tecniche, a seconda della complessità e della fedeltà richieste. Alcuni approcci comuni includono:

Importanza nell'intelligenza artificiale e nella visione artificiale

I dati sintetici offrono diversi vantaggi significativi per lo sviluppo dell'intelligenza artificiale e della computer vision:

  • Superare la scarsità di dati: Fornisce grandi volumi di dati quando i dati reali sono limitati o costosi da acquisire, aiutando la formazione di modelli robusti(Suggerimenti per la formazione di modelli).
  • Miglioramento della privacy dei dati: Genera dati che mantengono le proprietà statistiche senza contenere informazioni sensibili del mondo reale, aiutando a rispettare le normative sulla privacy e consentendo tecniche come la Privacy Differenziale.
  • Riduzione dei pregiudizi: può essere controllata attentamente per attenuare o aumentare la rappresentazione di gruppi o scenari sottorappresentati, aiutando a risolvere i pregiudizi del set di dati e a promuovere l'equità nell'IA.
  • Copertura dei casi limite: Permette di creare dati che rappresentano scenari rari o pericolosi (ad esempio, incidenti per veicoli autonomi, condizioni mediche rare) che sono difficili da catturare nella realtà. Questo migliora la generalizzazione del modello.
  • Efficienza in termini di costi e tempo: Spesso è più economico e veloce da generare rispetto alla raccolta e all'etichettatura dei dati del mondo reale(Data Labeling Explained).

Nella computer vision, le immagini sintetiche sono spesso utilizzate per addestrare modelli per compiti come il rilevamento di oggetti, la segmentazione di immagini e la stima della posa in condizioni diverse (ad esempio, illuminazione variabile, condizioni atmosferiche, punti di vista) che potrebbero essere difficili da trovare nei dataset disponibili.

Applicazioni del mondo reale

I dati sintetici vengono applicati in numerosi settori:

Altre applicazioni includono la modellazione finanziaria(AI in Finance), la vendita al dettaglio(AI for Smarter Retail) e l'addestramento alla robotica.

Dati sintetici e aumento dei dati

Sebbene sia i dati sintetici che l'aumento dei dati mirino a migliorare le serie di dati, si tratta di concetti distinti:

  • Aumento dei dati: Consiste nell'applicare trasformazioni (come rotazione, ritaglio, cambio di colore) ai punti di dati reali esistenti per creare versioni leggermente modificate. Aumenta la diversità del set di formazione in base alla distribuzione dei dati originali. I modelli di Ultralytics spesso incorporano delle trasformazioni integrate(integrazione delle alchimie).
  • Dati sintetici: Si riferisce a dati completamente nuovi generati artificialmente, spesso utilizzando simulazioni o modelli generativi come le GAN. Non partono necessariamente da uno specifico punto di dati reali e possono rappresentare scenari completamente assenti dal set di dati originale.

In sostanza, l'aumento dei dati amplia la varianza dei dati esistenti, mentre i dati sintetici possono creare punti e scenari del tutto nuovi, offrendo un modo potente per integrare o addirittura sostituire i dati reali nell'addestramento dei modelli di intelligenza artificiale gestiti attraverso piattaforme come Ultralytics HUB.

Leggi tutto