Glossar

Datensatz Verzerrung

Lerne, wie du die Verzerrung von Datensätzen in der KI erkennst und abschwächst, um faire, genaue und zuverlässige maschinelle Lernmodelle für reale Anwendungen zu gewährleisten.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Datensatzverzerrungen sind ein kritisches Problem beim maschinellen Lernen (ML), bei dem die Daten, die zum Trainieren eines Modells verwendet werden, nicht genau die realen Szenarien repräsentieren, in denen das Modell eingesetzt werden soll. Diese Diskrepanz kann dazu führen, dass ein Modell beim Training gut abschneidet, in der Praxis aber nicht. Verzerrte Datensätze können die Ergebnisse verfälschen und zu ungenauen Vorhersagen und potenziell schädlichen Ergebnissen führen, insbesondere in sensiblen Bereichen wie dem Gesundheitswesen, dem Finanzwesen und der Strafjustiz. Um faire, genaue und zuverlässige KI-Systeme zu entwickeln, ist es wichtig, die Verzerrungen in den Datensätzen zu beseitigen.

Arten von Datensatzverzerrungen

Verschiedene Arten von Datensatzverzerrungen können die Leistung und Fairness von Machine-Learning-Modellen beeinträchtigen. Einige häufige Arten sind:

  • Stichprobenverzerrung: Sie tritt auf, wenn der Datensatz nicht die wahre Verteilung der Bevölkerung widerspiegelt. Zum Beispiel kann ein Gesichtserkennungsmodell, das hauptsächlich auf Bildern einer demografischen Gruppe trainiert wurde, bei anderen schlecht abschneiden.
  • Label Bias: Entsteht, wenn die Labels im Datensatz falsch oder inkonsistent sind. Das kann durch menschliches Versagen bei der Kennzeichnung der Daten oder durch systematische Fehler bei der Datenerhebung passieren.
  • Confirmation Bias: Tritt auf, wenn der Datensatz in einer Weise gesammelt oder beschriftet wird, die bereits bestehende Überzeugungen oder Hypothesen bestätigt. Dies kann zu Modellen führen, die diese Vorurteile verstärken.

Beispiele aus der Praxis für Verzerrungen von Datensätzen

Die Verzerrung von Datensätzen kann sich in verschiedenen realen Anwendungen manifestieren, oft mit erheblichen Folgen. Hier sind zwei konkrete Beispiele:

  1. Gesundheitswesen: Ein medizinisches Bildanalysemodell, das hauptsächlich auf Bildern einer bestimmten demografischen Gruppe trainiert wurde, kann eine geringere Genauigkeit aufweisen, wenn es auf andere Gruppen angewendet wird. Dies kann bei unterrepräsentierten Bevölkerungsgruppen zu Fehldiagnosen oder einer verzögerten Behandlung führen.
  2. Einstellung: Ein KI-gesteuertes Rekrutierungstool, das auf der Grundlage historischer Einstellungsdaten trainiert wurde, die Vorurteile aus der Vergangenheit widerspiegeln (z. B. geschlechts- oder rassenspezifische Vorurteile), kann diese Vorurteile aufrechterhalten, indem bestimmte demografische Gruppen gegenüber anderen bevorzugt werden. Dies kann zu unfairen Einstellungspraktiken und einer geringeren Vielfalt am Arbeitsplatz führen.

Identifizierung und Abschwächung von Datensatzverzerrungen

Um Verzerrungen im Datensatz zu erkennen, müssen die Schritte der Datenerfassung, -kennzeichnung und -vorverarbeitung sorgfältig untersucht werden. Techniken wie die explorative Datenanalyse, statistische Tests und Visualisierung können helfen, Verzerrungen aufzudecken. Die Datenvisualisierung kann in diesem Zusammenhang besonders nützlich sein. Sobald diese aufgedeckt sind, können verschiedene Strategien angewandt werden, um die Verzerrungen zu verringern:

  • Datenerweiterung: Erhöhung der Vielfalt des Datensatzes durch Hinzufügen weiterer repräsentativer Stichproben oder durch Techniken wie die Datenerweiterung zur Erstellung synthetischer Datenpunkte.
  • Resampling: Ausgleich des Datensatzes durch Überstichproben bei unterrepräsentierten Gruppen oder Unterstichproben bei überrepräsentierten Gruppen.
  • Algorithmische Fairness: Die Verwendung von Algorithmen, die darauf ausgelegt sind, Verzerrungen während des Trainings abzumildern, wie z. B. Algorithmen, die Fairness-Beschränkungen erzwingen oder gegnerische Debiasing-Techniken verwenden. Erfahre mehr über Fairness in der KI.

Verwandte Konzepte

Die Verzerrung von Datensätzen ist eng mit anderen wichtigen Konzepten des maschinellen Lernens und der KI-Ethik verbunden:

  • Algorithmische Verzerrung: Bezieht sich auf systematische Fehler in einem Computersystem, die bestimmte Ergebnisse gegenüber anderen bevorzugen. Eine Quelle für algorithmische Verzerrungen ist der Datensatz, aber letztere können auch aus dem Design des Algorithmus selbst resultieren.
  • Voreingenommenheit in der KI: Ein weiter gefasster Begriff, der verschiedene Formen der Voreingenommenheit umfasst, die KI-Systeme beeinträchtigen können, z. B. Datensatz-Voreingenommenheit, algorithmische Voreingenommenheit und Bestätigungsvoreingenommenheit.
  • Erklärbare KI (XAI): Der Schwerpunkt liegt darauf, KI-Entscheidungen transparent und verständlich zu machen, was dabei helfen kann, Vorurteile zu erkennen und zu beseitigen.
  • KI-Ethik: Befasst sich mit den ethischen Überlegungen bei der Entwicklung und dem Einsatz von KI-Systemen, einschließlich Fragen zu Voreingenommenheit, Fairness, Transparenz und Verantwortlichkeit.

Um KI-Systeme zu entwickeln, die nicht nur genau, sondern auch fair und gerecht sind, ist es wichtig, die Verzerrungen in den Daten zu verstehen und zu beseitigen. Durch die sorgfältige Prüfung und Abschwächung von Verzerrungen in den Trainingsdaten können Entwickler Modelle erstellen, die in verschiedenen Bevölkerungsgruppen und Szenarien gleichbleibend gut funktionieren und so das Vertrauen und die Zuverlässigkeit von KI-Anwendungen fördern. Weitere Informationen darüber, wie du Datensicherheit und Datenschutz in deinen KI-Projekten gewährleisten kannst, findest du in diesen verwandten Themen.

Alles lesen