Datensatzverzerrungen sind ein kritisches Problem beim maschinellen Lernen (ML), bei dem die Daten, die zum Trainieren eines Modells verwendet werden, systematisch nicht die Vielfalt und Komplexität der realen Umgebung widerspiegeln, in der das Modell zum Einsatz kommt. Diese Diskrepanz entsteht durch Fehler bei der Datenerhebung, der Stichprobenziehung oder der Beschriftung. Folglich können Modelle, die auf voreingenommenen Datensätzen trainiert wurden, bei der Auswertung ähnlicher Daten gut abschneiden, aber eine schlechte Generalisierung, Ungenauigkeit und Unfairness aufweisen, wenn sie auf neue, ungesehene Daten oder andere demografische Gruppen angewendet werden. Wie in den Diskussionen zum Thema " Bias in AI" hervorgehoben wird, ist die Beseitigung von Datenverzerrungen für den Aufbau zuverlässiger, effektiver und gerechter KI-Systeme unerlässlich.
Arten von Datensatzverzerrungen
Verschiedene Arten von Verzerrungen können in Datensätze eindringen und zu verzerrten Modellergebnissen führen. Diese Arten zu verstehen, ist der erste Schritt zur Abhilfe:
- Selektionsverzerrung: Sie tritt auf, wenn bei der Datenerhebung bestimmte Untergruppen von Daten gegenüber anderen bevorzugt werden, was zu einer nicht repräsentativen Stichprobe führt. Wenn zum Beispiel nur zu bestimmten Zeiten Verkehrsdaten erhoben werden, werden möglicherweise Muster aus anderen Zeiten übersehen.
- Stichprobenverzerrung: Eine bestimmte Art von Auswahlverzerrung, bei der die gesammelte Stichprobe nicht genau die Proportionen der Zielpopulation widerspiegelt. Die Verwendung von nicht zufälligen Stichprobenmethoden kann dies oft verursachen.
- Messfehler: Sie entstehen durch Ungenauigkeiten oder Unstimmigkeiten während der Datenmessung oder der Beschriftungsphase. Dazu können fehlerhafte Sensoren oder subjektive Unstimmigkeiten bei der Datenbeschriftung durch verschiedene Kommentatoren gehören.
- Label Bias: Tritt auf, wenn die den Datenpunkten zugewiesenen Labels subjektiv und inkonsistent sind oder implizite Voreingenommenheiten der Annotatoren widerspiegeln, die möglicherweise durch Faktoren wie Confirmation Bias beeinflusst werden.
- Repräsentationsverzerrung: Sie tritt auf, wenn der Datensatz bestimmte Gruppen oder Merkmale in der realen Welt unterrepräsentiert, was dazu führt, dass das Modell für diese Gruppen eine schlechte Leistung erbringt.
Beispiele aus der Praxis für Verzerrungen von Datensätzen
Die Verzerrung von Datensätzen kann in der Praxis bei verschiedenen Anwendungen erhebliche Folgen haben:
- Gesichtserkennungssysteme: Viele frühe Gesichtserkennungs-Glossarsysteme wurden mit Datensätzen trainiert, die überwiegend hellhäutige Männergesichter enthielten. Daher wiesen diese Systeme oft eine deutlich geringere Genauigkeit auf, wenn es darum ging, Personen mit dunklerer Hautfarbe oder weibliche Gesichter zu erkennen, wie die NIST-Studie über demografische Effekte bei der Gesichtserkennung zeigt.
- Medizinische Bildanalyse: Ein KI-Modell, das für die Erkennung von Hautkrebs entwickelt wurde, könnte hauptsächlich auf Bildern von hellhäutigen Menschen trainiert werden. Wenn es in einer heterogenen Bevölkerung eingesetzt wird, könnte es aufgrund des Mangels an repräsentativen Bildern in den Trainingsdaten nicht in der Lage sein, bösartige Erkrankungen bei Menschen mit dunklerer Hautfarbe zu erkennen.
Identifizierung und Abschwächung von Datensatzverzerrungen
Die Erkennung von Verzerrungen in Datensätzen erfordert eine sorgfältige Analyse der Datenquelle, der Erfassungsmethoden und der Verteilung der Merkmale und Bezeichnungen. Zu den Techniken gehören die explorative Datenanalyse, statistische Tests, die die Leistung von Untergruppen vergleichen, und die Datenvisualisierung, um Ungleichgewichte zu erkennen.
Sobald sie identifiziert sind, gibt es Strategien zur Schadensbegrenzung:
- Repräsentativere Daten erheben: Ausweitung der Datenerhebung, um unterrepräsentierte Gruppen und Szenarien einzubeziehen.
- Datenerweiterung: Die Anwendung von Techniken wie Bilddrehung, Zuschneiden oder Farbverschiebungen mit Hilfe von Tools, die in Modelle wie Ultralytics YOLO integriert sind, kann dazu beitragen, die Datenvielfalt zu erhöhen, wie im Glossar zur Datenerweiterung beschrieben.
- Re-Sampling-Techniken: Anpassen des Datensatzes durch Oversampling von Minderheitsklassen oder Undersampling von Mehrheitsklassen.
- Algorithmische Fairness-Techniken: Implementierung von Algorithmen zur Förderung der Fairness während des Modelltrainings oder der Nachbearbeitung. Tools wie das AI Fairness 360 Toolkit (IBM Research) bieten hierfür Ressourcen.
- Unterschiedliche Benchmark-Datensätze verwenden: Evaluierung von Modellen anhand von standardisierten Benchmark-Datensätzen, die für ihre Vielfalt bekannt sind.
Verwandte Konzepte
Die Verzerrung von Datensätzen ist eng mit mehreren anderen wichtigen Konzepten der KI verbunden:
- Algorithmische Verzerrung: Während die Verzerrung des Datensatzes von den Daten herrührt, entsteht die algorithmische Verzerrung durch das Design oder den Lernprozess des Modells, der bestehende Verzerrungen verstärken oder neue einführen kann.
- Fairness in der KI: In diesem Bereich geht es um die Entwicklung von KI-Systemen, die Einzelpersonen und Gruppen gerecht behandeln, was oft die Messung und Abschwächung von Verzerrungen in Datensätzen und Algorithmen beinhaltet.
- KI-Ethik: Die Voreingenommenheit von Datensätzen ist ein großes ethisches Problem, da voreingenommene Modelle zu Diskriminierung und Schaden führen können. Organisationen wie die Partnership on AI (PAI) setzen sich für einen breiteren ethischen Rahmen für die verantwortungsvolle Entwicklung von KI ein.
- Erklärbare KI (XAI): Techniken, die Modellvorhersagen transparenter machen, können dabei helfen zu erkennen, ob Verzerrungen im Datensatz die Ergebnisse beeinflussen.
Um vertrauenswürdige KI-Systeme zu entwickeln, ist es wichtig, die Verzerrung von Datensätzen zu verstehen und proaktiv dagegen vorzugehen, wie in Ressourcen wie dem Blog Understanding AI Bias und den Responsible AI Practices vonGoogle beschrieben. Forschungen und Ressourcen von Organisationen wie Microsoft Responsible AI Resources und der ACM Conference on Fairness, Accountability, and Transparency (FAccT) entwickeln Methoden zur Bewältigung dieser Herausforderung weiter.