I dati sintetici si riferiscono a dati generati artificialmente che imitano le proprietà statistiche dei dati del mondo reale, piuttosto che essere raccolti direttamente da eventi o misurazioni reali. Nei campi dell'Intelligenza Artificiale (AI) e dell'Apprendimento Automatico (ML), i dati sintetici rappresentano un'alternativa o un'integrazione fondamentale ai dati di addestramento reali. Sono particolarmente preziosi quando la raccolta di dati reali sufficienti è difficile, costosa, richiede tempo o solleva problemi di privacy. Queste informazioni create artificialmente aiutano ad addestrare i modelli, a testare i sistemi e a esplorare scenari che potrebbero essere rari o pericolosi nella realtà.
Come vengono creati i dati sintetici
I dati sintetici possono essere generati con diverse tecniche, a seconda della complessità e della fedeltà desiderata:
- Modellazione statistica: Utilizzare metodi statistici come il campionamento da distribuzioni che corrispondono alle caratteristiche dei dati reali.
- Simulazione: Creare ambienti o modelli virtuali per generare dati basati su regole e interazioni predefinite. È una pratica comune in campi come la robotica e i sistemi autonomi. Piattaforme come NVIDIA Omniverse sono spesso utilizzate per generare simulazioni realistiche.
- Modelli generativi: Impiegare tecniche di Deep Learning (DL), come le Reti Adversariali Generative (GAN) o gli Autoencoder Variazionali (VAE), per apprendere i modelli sottostanti dei dati reali e generare nuovi punti dati simili. L'articolo originale sulle GAN ha introdotto una potente struttura per questo scopo.
Importanza nell'intelligenza artificiale e nella visione artificiale
I dati sintetici offrono diversi vantaggi per lo sviluppo dell'IA:
- Superare la scarsità di dati: Fornisce grandi set di dati necessari per l'addestramento di modelli complessi, come ad esempio Ultralytics YOLO quando i dati reali sono limitati.
- Miglioramento della privacy dei dati: Permette di addestrare i modelli senza esporre le informazioni sensibili del mondo reale, un aspetto cruciale in settori come la sanità e la finanza. Le tecniche possono talvolta incorporare concetti come la privacy differenziale.
- Copertura dei casi limite: Permette di creare dati per scenari rari o critici (ad esempio, situazioni di emergenza per le auto a guida autonoma) che sono difficili da catturare nel mondo reale.
- Ridurre i pregiudizi: può potenzialmente aiutare a mitigare i pregiudizi del set di dati generando set di dati bilanciati, anche se bisogna fare attenzione a non introdurre nuovi pregiudizi.
- Efficienza in termini di costi e tempi: La generazione di dati sintetici può essere più veloce ed economica rispetto alla raccolta e all'annotazione di dati reali.
Nella computer vision, le immagini sintetiche vengono utilizzate per addestrare i modelli per compiti come il rilevamento degli oggetti e la segmentazione delle immagini in diverse condizioni (illuminazione, tempo, punti di vista).
Dati sintetici e aumento dei dati
Sebbene sia i dati sintetici che l'aumento dei dati mirino ad aumentare la diversità e il volume dei dati di formazione, si tratta di concetti distinti:
- Aumento dei dati: Consiste nell'applicare trasformazioni (come rotazione, scalatura, ritaglio, cambio di colore) ai dati reali esistenti per creare versioni leggermente modificate. Espande il set di dati, ma si basa sulla presenza di un set iniziale di dati reali. A questo scopo si possono integrare strumenti come Albumentations.
- Dati sintetici: Comporta la creazione di punti di dati completamente nuovi da zero, spesso utilizzando modelli o simulazioni, senza necessariamente partire da esempi reali (anche se i modelli sono solitamente addestrati inizialmente su dati reali).
I dati sintetici possono colmare le lacune che l'aumento non può colmare, come la creazione di esempi di scenari completamente sconosciuti o la generazione di dati quando i dati reali sono completamente indisponibili o inutilizzabili a causa di vincoli di privacy. Tuttavia, garantire che i dati sintetici riflettano accuratamente la complessità del mondo reale rimane una sfida, che potenzialmente può portare a problemi come l'overfitting della distribuzione sintetica se non viene gestito con attenzione. Piattaforme come Ultralytics HUB supportano l'addestramento di modelli su diversi set di dati, compresi quelli sintetici.