Glossario

Dati sintetici

Libera la potenza dei dati sintetici per l'AI/ML! Supera la scarsità di dati, i problemi di privacy e i costi e aumenta la formazione e l'innovazione dei modelli.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

I dati sintetici si riferiscono a dati generati artificialmente che imitano le proprietà statistiche dei dati del mondo reale, piuttosto che essere raccolti direttamente da eventi o misurazioni reali. Nei campi dell'Intelligenza Artificiale (AI) e dell'Apprendimento Automatico (ML), i dati sintetici rappresentano un'alternativa o un'integrazione fondamentale ai dati di addestramento reali. Sono particolarmente preziosi quando la raccolta di dati reali sufficienti è difficile, costosa, richiede tempo o solleva problemi di privacy. Queste informazioni create artificialmente aiutano ad addestrare i modelli, a testare i sistemi e a esplorare scenari che potrebbero essere rari o pericolosi nella realtà.

Come vengono creati i dati sintetici

I dati sintetici possono essere generati con diverse tecniche, a seconda della complessità e della fedeltà desiderata:

  • Modellazione statistica: Utilizzare metodi statistici come il campionamento da distribuzioni che corrispondono alle caratteristiche dei dati reali.
  • Simulazione: Creare ambienti o modelli virtuali per generare dati basati su regole e interazioni predefinite. È una pratica comune in campi come la robotica e i sistemi autonomi. Piattaforme come NVIDIA Omniverse sono spesso utilizzate per generare simulazioni realistiche.
  • Modelli generativi: Impiegare tecniche di Deep Learning (DL), come le Reti Adversariali Generative (GAN) o gli Autoencoder Variazionali (VAE), per apprendere i modelli sottostanti dei dati reali e generare nuovi punti dati simili. L'articolo originale sulle GAN ha introdotto una potente struttura per questo scopo.

Importanza nell'intelligenza artificiale e nella visione artificiale

I dati sintetici offrono diversi vantaggi per lo sviluppo dell'IA:

  • Superare la scarsità di dati: Fornisce grandi set di dati necessari per l'addestramento di modelli complessi, come ad esempio Ultralytics YOLO quando i dati reali sono limitati.
  • Miglioramento della privacy dei dati: Permette di addestrare i modelli senza esporre le informazioni sensibili del mondo reale, un aspetto cruciale in settori come la sanità e la finanza. Le tecniche possono talvolta incorporare concetti come la privacy differenziale.
  • Copertura dei casi limite: Permette di creare dati per scenari rari o critici (ad esempio, situazioni di emergenza per le auto a guida autonoma) che sono difficili da catturare nel mondo reale.
  • Ridurre i pregiudizi: può potenzialmente aiutare a mitigare i pregiudizi del set di dati generando set di dati bilanciati, anche se bisogna fare attenzione a non introdurre nuovi pregiudizi.
  • Efficienza in termini di costi e tempi: La generazione di dati sintetici può essere più veloce ed economica rispetto alla raccolta e all'annotazione di dati reali.

Nella computer vision, le immagini sintetiche vengono utilizzate per addestrare i modelli per compiti come il rilevamento degli oggetti e la segmentazione delle immagini in diverse condizioni (illuminazione, tempo, punti di vista).

Applicazioni del mondo reale

  1. Veicoli autonomi: L'addestramento dei sistemi di percezione per le auto a guida autonoma richiede grandi quantità di dati che coprono diverse condizioni di guida ed eventi rari (come incidenti o ostacoli insoliti). Le aziende utilizzano simulatori come Unity Simulation o piattaforme proprietarie come l'ambiente di simulazione di Waymo per generare dati di guida sintetici realistici, migliorando la robustezza del modello e la sicurezza dell'intelligenza artificiale nel settore automobilistico.
  2. Assistenza sanitaria: Le norme sulla privacy dei pazienti (come l'HIPAA) limitano l'uso di dati medici reali. I dati sintetici consentono a ricercatori e sviluppatori di addestrare modelli di IA per l'analisi di immagini mediche (ad esempio, il rilevamento di tumori) o l'analisi di cartelle cliniche elettroniche senza compromettere la riservatezza dei pazienti. Progetti come Synthea generano cartelle cliniche sintetiche per la ricerca nell'ambito dell'AI nel settore sanitario.

Dati sintetici e aumento dei dati

Sebbene sia i dati sintetici che l'aumento dei dati mirino ad aumentare la diversità e il volume dei dati di formazione, si tratta di concetti distinti:

  • Aumento dei dati: Consiste nell'applicare trasformazioni (come rotazione, scalatura, ritaglio, cambio di colore) ai dati reali esistenti per creare versioni leggermente modificate. Espande il set di dati, ma si basa sulla presenza di un set iniziale di dati reali. A questo scopo si possono integrare strumenti come Albumentations.
  • Dati sintetici: Comporta la creazione di punti di dati completamente nuovi da zero, spesso utilizzando modelli o simulazioni, senza necessariamente partire da esempi reali (anche se i modelli sono solitamente addestrati inizialmente su dati reali).

I dati sintetici possono colmare le lacune che l'aumento non può colmare, come la creazione di esempi di scenari completamente sconosciuti o la generazione di dati quando i dati reali sono completamente indisponibili o inutilizzabili a causa di vincoli di privacy. Tuttavia, garantire che i dati sintetici riflettano accuratamente la complessità del mondo reale rimane una sfida, che potenzialmente può portare a problemi come l'overfitting della distribuzione sintetica se non viene gestito con attenzione. Piattaforme come Ultralytics HUB supportano l'addestramento di modelli su diversi set di dati, compresi quelli sintetici.

Leggi tutto