Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Dataset Bias

Erforschen Sie die Ursachen für Verzerrungen in Datensätzen bei KI und lernen Sie, wie Sie diese Verzerrungen mindern können. Entdecken Sie, wie Sie mit der Ultralytics und Ultralytics die Fairness verbessern können.

Eine Verzerrung des Datensatzes tritt auf, wenn die Informationen, die zum Trainieren von Modellen für maschinelles Lernen (ML) verwendet werden, systematische Fehler oder verzerrte Verteilungen enthalten, was dazu führt, dass das resultierende KI-System bestimmte Ergebnisse gegenüber anderen bevorzugt. Da Modelle als Mustererkennungsmaschinen fungieren, sind sie vollständig von ihren Eingaben abhängig. Wenn die Trainingsdaten die Vielfalt der realen Umgebung nicht genau widerspiegeln , übernimmt das Modell diese blinden Flecken. Dieses Phänomen führt oft zu einer schlechten Generalisierung, bei der eine KI zwar während des Tests hohe Punktzahlen erzielt, aber bei der Echtzeit-Inferenz in vielfältigen oder unerwarteten Szenarien deutlich versagt .

Häufige Ursachen für Datenverzerrungen

Verzerrungen können in mehreren Phasen des Entwicklungszyklus in einen Datensatz eindringen und sind häufig auf menschliche Entscheidungen während der Erfassung oder Annotation zurückzuführen.

  • Auswahlverzerrung: Diese entsteht, wenn die gesammelten Daten nicht zufällig die Zielpopulation repräsentieren. Wenn beispielsweise ein Gesichtserkennungs-Datensatz überwiegend mit Bildern von Prominenten erstellt wird, kann das Modell auf starkes Make-up und professionelle Beleuchtung ausgerichtet sein, sodass es bei alltäglichen Webcam-Bildern versagt.
  • Fehler bei der Beschriftung: Subjektivität bei der Datenbeschriftung kann zu menschlichen Vorurteilen führen. Wenn Annotatoren aufgrund fehlender klarer Richtlinien mehrdeutige Objekte durchgängig falsch klassifizieren, behandelt das Modell diese Fehler als Grundwahrheit.
  • Repräsentationsverzerrung: Selbst wenn sie zufällig ausgewählt werden, können Minderheitengruppen statistisch gesehen von der Mehrheit überlagert werden. Bei der Objekterkennung führt ein Datensatz mit 10.000 Bildern von Autos, aber nur 100 Bildern von Fahrrädern zu einem Modell, das bei der Erkennung von Autos verzerrt ist.

Anwendungen und Konsequenzen in der realen Welt

Die Auswirkungen von Datensatzverzerrungen sind in verschiedenen Branchen erheblich, insbesondere dort, wo automatisierte Systeme entscheidende Entscheidungen treffen oder mit der physischen Welt interagieren.

In der Automobilindustrie nutzt KI in Fahrzeugen Kameras, um Fußgänger und Hindernisse zu erkennen. Wenn ein selbstfahrendes Auto hauptsächlich mit Daten trainiert wird, die bei sonnigem, trockenem Wetter gesammelt wurden, kann es bei Schnee oder starkem Regen zu Leistungseinbußen kommen . Dies ist ein klassisches Beispiel dafür, dass die Trainingsverteilung nicht mit der Einsatzverteilung übereinstimmt, was zu Sicherheitsrisiken führt.

In ähnlicher Weise werden bei der medizinischen Bildanalyse Diagnosemodelle häufig anhand historischer Patientendaten trainiert. Wenn ein Modell zur detect an einem Datensatz trainiert wird, der überwiegend hellere Hauttöne enthält, kann es bei der Diagnose von Patienten mit dunklerer Haut eine deutlich geringere Genauigkeit aufweisen. Um dieses Problem anzugehen, sind konzertierte Anstrengungen zur Kuratierung vielfältiger Datensätze erforderlich, die die Fairness der KI für alle demografischen Gruppen gewährleisten.

Strategien zur Risikominderung

Entwickler können die Verzerrung von Datensätzen durch strenge Audits und fortschrittliche Trainingsstrategien reduzieren. Techniken wie die Datenvergrößerung tragen dazu bei, Datensätze auszugleichen, indem künstlich Variationen von unterrepräsentierten Beispielen erstellt werden (z. B. durch Spiegelung, Drehung oder Anpassung der Helligkeit). Darüber hinaus kann die Generierung synthetischer Daten Lücken füllen, wo reale Daten rar oder schwer zu sammeln sind.

Die effektive Verwaltung dieser Datensätze ist von entscheidender Bedeutung. Ultralytics ermöglicht es Teams, Klassenverteilungen zu visualisieren und Ungleichgewichte zu identifizieren, bevor das Training beginnt. Darüber hinaus hilft die Einhaltung von Richtlinien wie dem NIST AI Risk Management Framework Unternehmen dabei, ihren Ansatz zur systematischen Identifizierung und Minderung dieser Risiken zu strukturieren.

Datensatzverzerrung vs. verwandte Konzepte

Es ist hilfreich, die Verzerrung von Datensätzen von ähnlichen Begriffen zu unterscheiden, um zu verstehen, woher der Fehler stammt:

  • vs. Algorithmische Verzerrung: Die Verzerrung von Datensätzen ist datenzentriert; sie impliziert, dass die „Zutaten” fehlerhaft sind. Die algorithmische Verzerrung ist modellzentriert; sie entsteht durch die Gestaltung des Algorithmus selbst oder des Optimierungsalgorithmus, der möglicherweise Mehrheitsklassen priorisiert, um die Gesamtmetriken auf Kosten von Minderheitengruppen zu maximieren.
  • vs. Modelldrift: Datensatzverzerrung ist ein statisches Problem, das zum Zeitpunkt des Trainings auftritt. Modelldrift (oder Datendrift) tritt auf, wenn sich die realen Daten im Laufe der Zeit nach der Bereitstellung des Modells ändern, was eine kontinuierliche Modellüberwachung erforderlich macht.

Code-Beispiel: Erweiterung zur Verringerung der Verzerrung

Das folgende Beispiel zeigt, wie die Datenvergrößerung während des Trainings mit YOLO26 angewendet wird. Durch die Erhöhung der geometrischen Vergrößerungen lernt das Modell , besser zu verallgemeinern, wodurch möglicherweise die Verzerrung in Richtung bestimmter Objektorientierungen oder -positionen im Trainingssatz

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten