Glossario

Distorsione del set di dati

Scopri come identificare e mitigare le distorsioni dei dati nell'IA per garantire modelli di apprendimento automatico equi, accurati e affidabili per le applicazioni del mondo reale.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

Il Dataset bias è un problema critico nell'apprendimento automatico (ML) in cui i dati utilizzati per addestrare un modello non riescono sistematicamente a rappresentare la diversità e la complessità dell'ambiente reale in cui il modello verrà impiegato. Questa discrepanza deriva da difetti nei processi di raccolta, campionamento o annotazione dei dati. Di conseguenza, i modelli addestrati su set di dati distorti possono ottenere buoni risultati nelle metriche di valutazione utilizzando dati simili, ma presentano scarsa generalizzazione, imprecisione e scorrettezza quando vengono applicati a dati nuovi e sconosciuti o a gruppi demografici diversi. Affrontare le distorsioni dei dati è essenziale per costruire sistemi di IA affidabili, efficaci ed equi, come evidenziato nelle discussioni su Bias in AI.

Tipi di distorsione del set di dati

Diverse forme di distorsione possono infiltrarsi nei set di dati, portando a risultati distorti dei modelli. Comprendere questi tipi di errori è il primo passo verso la loro riduzione:

  • Bias di selezione: si verifica quando il processo di raccolta dei dati favorisce alcuni sottoinsiemi di dati rispetto ad altri, dando luogo a un campione non rappresentativo. Ad esempio, raccogliendo i dati sul traffico solo in determinati orari si potrebbero perdere i modelli di altre fasce orarie.
  • Bias di campionamento: un tipo specifico di bias di selezione in cui il campione raccolto non riflette accuratamente le proporzioni della popolazione target. L'utilizzo di metodi di campionamento non casuali può spesso causare questo fenomeno.
  • Bias di misurazione: deriva da imprecisioni o incoerenze durante la fase di misurazione o annotazione dei dati. Ciò potrebbe riguardare sensori difettosi o incoerenze soggettive nell'etichettatura dei dati eseguita da diversi annotatori.
  • Label Bias: si verifica quando le etichette assegnate ai punti dati sono soggettive, incoerenti o riflettono pregiudizi impliciti degli annotatori, potenzialmente influenzati da fattori come la spiegazione del Confirmation Bias.
  • Bias di rappresentazione: si verifica quando il set di dati rappresenta in modo insufficiente alcuni gruppi o attributi presenti nel mondo reale, facendo sì che il modello abbia prestazioni scarse per quei gruppi.

Esempi reali di distorsione del set di dati

Le distorsioni del set di dati possono avere conseguenze significative nel mondo reale in diverse applicazioni:

  1. Sistemi di riconoscimento facciale: Molti dei primi sistemi di glossario per il riconoscimento facciale sono stati addestrati su set di dati che presentavano prevalentemente volti maschili dalla carnagione più chiara. Di conseguenza, questi sistemi spesso mostravano un'accuratezza significativamente inferiore quando identificavano individui con carnagione più scura o volti femminili, come documentato dallo studio del NIST sugli effetti demografici nel riconoscimento facciale.
  2. Analisi di immagini mediche: Un modello di intelligenza artificiale progettato per rilevare il cancro della pelle potrebbe essere addestrato principalmente su immagini di individui con la pelle chiara. Se impiegato in una popolazione eterogenea, potrebbe non riuscire a rilevare con precisione i tumori maligni negli individui con carnagione più scura a causa della mancanza di immagini rappresentative nei dati di addestramento, evidenziando i problemi di parzialità nella ricerca sull'IA medica e incidendo sull'efficacia dell'IA nell'assistenza sanitaria.

Identificare e mitigare i bias del set di dati

Individuare gli squilibri di un set di dati comporta un'attenta analisi della fonte dei dati, dei metodi di raccolta e della distribuzione delle caratteristiche e delle etichette. Le tecniche includono l'analisi esplorativa dei dati, i test statistici che confrontano le prestazioni dei sottogruppi e la visualizzazione dei dati per individuare gli squilibri.

Una volta identificate, le strategie di mitigazione includono:

  • Raccogliere dati più rappresentativi: Espandere gli sforzi di raccolta dati per includere gruppi e scenari sottorappresentati.
  • Aumento dei dati: L'applicazione di tecniche come la rotazione delle immagini, il ritaglio o il cambio di colore, utilizzando strumenti integrati con modelli come Ultralytics YOLO , può aiutare ad aumentare la diversità dei dati, come illustrato nel glossario Data Augmentation.
  • Tecniche di ricampionamento: Adattare il set di dati sovracampionando le classi di minoranza o sottocampionando le classi di maggioranza.
  • Tecniche di equità algoritmica: Implementare algoritmi progettati per promuovere l'equità durante l'addestramento del modello o la post-elaborazione. Strumenti come AI Fairness 360 Toolkit (IBM Research) offrono risorse per questo scopo.
  • Utilizzo di set di dati di riferimento diversificati: Valutare i modelli su dataset di riferimento standardizzati noti per la loro diversità.

Concetti correlati

La parzialità del set di dati è strettamente legata a diversi altri concetti importanti dell'IA:

  • Pregiudizi algoritmici: mentre i pregiudizi del dataset derivano dai dati, i pregiudizi algoritmici derivano dalla progettazione o dal processo di apprendimento del modello, che potrebbe amplificare i pregiudizi esistenti o introdurne di nuovi.
  • Equità nell'IA: questo campo si concentra sullo sviluppo di sistemi di IA che trattano individui e gruppi in modo equo, spesso implicando la misurazione e la mitigazione dei pregiudizi dei dati e degli algoritmi.
  • Etica dell'IA: La parzialità dei dati è una delle principali preoccupazioni etiche, in quanto i modelli parziali possono perpetuare discriminazioni e danni. Un quadro etico più ampio guida lo sviluppo responsabile dell'IA, sostenuto da organizzazioni come la Partnership on AI (PAI).
  • Explainable AI (XAI): Le tecniche che rendono più trasparenti le previsioni dei modelli possono aiutare a identificare se le distorsioni nel set di dati stanno influenzando i risultati.

Comprendere e affrontare in modo proattivo le distorsioni dei dati, come illustrato in risorse come il blog Understanding AI Bias e le Responsible AI Practices diGoogle, è fondamentale per creare sistemi di IA affidabili. La ricerca e le risorse di enti come Microsoft Responsible AI Resources e l'ACM Conference on Fairness, Accountability, and Transparency (FAccT) continuano a far progredire i metodi per affrontare questa sfida.

Leggi tutto