Erforschen Sie die Ursachen für Verzerrungen in Datensätzen bei KI und lernen Sie, wie Sie diese Verzerrungen mindern können. Entdecken Sie, wie Sie mit der Ultralytics und Ultralytics die Fairness verbessern können.
Eine Verzerrung des Datensatzes tritt auf, wenn die Informationen, die zum Trainieren von Modellen für maschinelles Lernen (ML) verwendet werden, systematische Fehler oder verzerrte Verteilungen enthalten, was dazu führt, dass das resultierende KI-System bestimmte Ergebnisse gegenüber anderen bevorzugt. Da Modelle als Mustererkennungsmaschinen fungieren, sind sie vollständig von ihren Eingaben abhängig. Wenn die Trainingsdaten die Vielfalt der realen Umgebung nicht genau widerspiegeln , übernimmt das Modell diese blinden Flecken. Dieses Phänomen führt oft zu einer schlechten Generalisierung, bei der eine KI zwar während des Tests hohe Punktzahlen erzielt, aber bei der Echtzeit-Inferenz in vielfältigen oder unerwarteten Szenarien deutlich versagt .
Verzerrungen können in mehreren Phasen des Entwicklungszyklus in einen Datensatz eindringen und sind häufig auf menschliche Entscheidungen während der Erfassung oder Annotation zurückzuführen.
Die Auswirkungen von Datensatzverzerrungen sind in verschiedenen Branchen erheblich, insbesondere dort, wo automatisierte Systeme entscheidende Entscheidungen treffen oder mit der physischen Welt interagieren.
In der Automobilindustrie nutzt KI in Fahrzeugen Kameras, um Fußgänger und Hindernisse zu erkennen. Wenn ein selbstfahrendes Auto hauptsächlich mit Daten trainiert wird, die bei sonnigem, trockenem Wetter gesammelt wurden, kann es bei Schnee oder starkem Regen zu Leistungseinbußen kommen . Dies ist ein klassisches Beispiel dafür, dass die Trainingsverteilung nicht mit der Einsatzverteilung übereinstimmt, was zu Sicherheitsrisiken führt.
In ähnlicher Weise werden bei der medizinischen Bildanalyse Diagnosemodelle häufig anhand historischer Patientendaten trainiert. Wenn ein Modell zur detect an einem Datensatz trainiert wird, der überwiegend hellere Hauttöne enthält, kann es bei der Diagnose von Patienten mit dunklerer Haut eine deutlich geringere Genauigkeit aufweisen. Um dieses Problem anzugehen, sind konzertierte Anstrengungen zur Kuratierung vielfältiger Datensätze erforderlich, die die Fairness der KI für alle demografischen Gruppen gewährleisten.
Entwickler können die Verzerrung von Datensätzen durch strenge Audits und fortschrittliche Trainingsstrategien reduzieren. Techniken wie die Datenvergrößerung tragen dazu bei, Datensätze auszugleichen, indem künstlich Variationen von unterrepräsentierten Beispielen erstellt werden (z. B. durch Spiegelung, Drehung oder Anpassung der Helligkeit). Darüber hinaus kann die Generierung synthetischer Daten Lücken füllen, wo reale Daten rar oder schwer zu sammeln sind.
Die effektive Verwaltung dieser Datensätze ist von entscheidender Bedeutung. Ultralytics ermöglicht es Teams, Klassenverteilungen zu visualisieren und Ungleichgewichte zu identifizieren, bevor das Training beginnt. Darüber hinaus hilft die Einhaltung von Richtlinien wie dem NIST AI Risk Management Framework Unternehmen dabei, ihren Ansatz zur systematischen Identifizierung und Minderung dieser Risiken zu strukturieren.
Es ist hilfreich, die Verzerrung von Datensätzen von ähnlichen Begriffen zu unterscheiden, um zu verstehen, woher der Fehler stammt:
Das folgende Beispiel zeigt, wie die Datenvergrößerung während des Trainings mit YOLO26 angewendet wird. Durch die Erhöhung der geometrischen Vergrößerungen lernt das Modell , besser zu verallgemeinern, wodurch möglicherweise die Verzerrung in Richtung bestimmter Objektorientierungen oder -positionen im Trainingssatz
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)