Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Bias del dataset

Esplora le cause della distorsione dei set di dati nell'IA e scopri come mitigarla. Scopri come utilizzare la Ultralytics e Ultralytics per migliorare l'equità.

Il bias dei dataset si verifica quando le informazioni utilizzate per addestrare i modelli di machine learning (ML) contengono errori sistematici o distribuzioni distorte, portando il sistema di IA risultante a favorire determinati risultati rispetto ad altri. Poiché i modelli funzionano come motori di riconoscimento dei modelli, dipendono interamente dai loro input; se i dati di addestramento non riflettono accuratamente la diversità dell'ambiente reale, il modello erediterà questi punti ciechi. Questo fenomeno spesso si traduce in una scarsa generalizzazione, in cui un'IA potrebbe ottenere punteggi elevati durante i test, ma fallisce in modo significativo quando viene implementata per l' inferenza in tempo reale in scenari diversi o imprevisti .

Fonti comuni di distorsione dei dati

La distorsione può infiltrarsi in un set di dati in diverse fasi del ciclo di vita dello sviluppo, spesso derivando da decisioni umane durante la raccolta o l'annotazione.

  • Distorsione di selezione: si verifica quando i dati raccolti non rappresentano in modo casuale la popolazione target. Ad esempio, la creazione di un set di dati per il riconoscimento facciale utilizzando prevalentemente immagini di personaggi famosi può distorcere il modello verso un trucco pesante e un'illuminazione professionale, causandone il fallimento sulle immagini quotidiane delle webcam.
  • Errori di etichettatura: La soggettività durante l'etichettatura dei dati può introdurre pregiudizi umani. Se gli annotatori classificano in modo errato oggetti ambigui a causa della mancanza di linee guida chiare, il modello tratta questi errori come verità di base.
  • Distorsione di rappresentazione: anche se selezionati in modo casuale, i gruppi minoritari possono essere statisticamente sovrastati dalla classe maggioritaria. Nel rilevamento di oggetti, un set di dati con 10.000 immagini di automobili ma solo 100 immagini di biciclette darà luogo a un modello distorto verso il rilevamento delle automobili.

Applicazioni e conseguenze nel mondo reale

L'impatto della distorsione dei set di dati è significativo in vari settori, in particolare dove i sistemi automatizzati prendono decisioni ad alto rischio o interagiscono con il mondo fisico.

Nel settore automobilistico, l'intelligenza artificiale si affida alle telecamere per identificare pedoni e ostacoli. Se un'auto a guida autonoma viene addestrata principalmente sulla base di dati raccolti in climi soleggiati e asciutti, potrebbe mostrare un calo delle prestazioni quando opera in condizioni di neve o pioggia battente. Questo è un classico esempio di come la distribuzione dell'addestramento non corrisponda alla distribuzione operativa, con conseguenti rischi per la sicurezza.

Analogamente, nell'analisi delle immagini mediche, i modelli diagnostici vengono spesso addestrati sui dati storici dei pazienti. Se un modello progettato per detect le condizioni detect viene addestrato su un set di dati dominato da tonalità di pelle più chiare, potrebbe dimostrare un'accuratezza significativamente inferiore nella diagnosi di pazienti con pelle più scura. Per affrontare questo problema è necessario uno sforzo concertato per curare set di dati diversificati che garantiscano l'equità dell'IA in tutti i gruppi demografici.

Strategie di mitigazione

Gli sviluppatori possono ridurre la distorsione dei set di dati utilizzando strategie di controllo rigorose e di formazione avanzata. Tecniche come l' aumento dei dati aiutano a bilanciare i set di dati creando artificialmente variazioni di esempi sottorappresentati (ad esempio, capovolgendo, ruotando o regolando la luminosità). Inoltre, la generazione di dati sintetici può colmare le lacune laddove i dati reali sono scarsi o difficili da raccogliere.

È fondamentale gestire questi set di dati in modo efficace. Ultralytics consente ai team di visualizzare le distribuzioni delle classi e identificare gli squilibri prima dell'inizio della formazione. Inoltre, l'adesione a linee guida come il NIST AI Risk Management Framework aiuta le organizzazioni a strutturare il loro approccio per identificare e mitigare questi rischi in modo sistematico.

Distorsione dei dati rispetto ai concetti correlati

È utile distinguere il bias del set di dati da termini simili per comprendere da dove proviene l'errore:

  • vs. Pregiudizio algoritmico: il pregiudizio del set di dati è incentrato sui dati; implica che gli "ingredienti" siano difettosi. Il pregiudizio algoritmico è incentrato sul modello; deriva dalla progettazione dell'algoritmo stesso o dall' algoritmo di ottimizzazione, che potrebbe dare priorità alle classi maggioritarie per massimizzare le metriche complessive a scapito dei gruppi minoritari.
  • vs. Deriva del modello: la distorsione del set di dati è un problema statico presente al momento dell'addestramento. La deriva del modello (o deriva dei dati) si verifica quando i dati reali cambiano nel tempo dopo l'implementazione del modello, richiedendo un monitoraggio continuo del modello.

Esempio di codice: aumento per ridurre il bias

L'esempio seguente mostra come applicare l'aumento dei dati durante l'addestramento con YOLO26. Aumentando gli aumenti geometrici, il modello impara a generalizzare meglio, riducendo potenzialmente il bias verso orientamenti o posizioni specifici degli oggetti presenti nel set di addestramento.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora