Glossar

Datensatz Verzerrung

Erfahre, wie du Datenverzerrungen in der KI erkennst und abschwächst, um Fairness, Genauigkeit und Zuverlässigkeit in maschinellen Lernmodellen zu gewährleisten.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Datensatzverzerrungen sind systematische Fehler oder Ungleichgewichte in einem Datensatz, die sich negativ auf die Leistung, Generalisierung und Fairness von Machine-Learning-Modellen auswirken können. Diese Verzerrung entsteht durch die Art und Weise, wie die Daten gesammelt, gekennzeichnet oder abgetastet werden, was zu einer verzerrten Darstellung der realen Szenarien führt, die das Modell verarbeiten soll. Um zuverlässige und faire KI-Systeme zu entwickeln, ist es wichtig, die Verzerrung von Datensätzen zu beseitigen, insbesondere bei Anwendungen wie dem Gesundheitswesen, selbstfahrenden Autos und der Gesichtserkennung.

Arten von Datensatzverzerrungen

Stichprobenverzerrung

Stichprobenverzerrungen treten auf, wenn der Datensatz die Vielfalt der Zielpopulation oder -domäne nicht angemessen repräsentiert. Ein Bilddatensatz für die Gesichtserkennung, der überwiegend hellhäutige Personen enthält, kann beispielsweise zu einer schlechten Leistung bei dunkelhäutigen Personen führen. Dieses Problem macht deutlich, wie wichtig es ist, vielfältige Datensätze wie ImageNet oder den COCO-Datensatz für ein ausgewogenes Training zu verwenden.

Label Bias

Eine Verzerrung der Kennzeichnung entsteht durch Unstimmigkeiten oder Ungenauigkeiten im Kennzeichnungsprozess. Dazu können menschliche Fehler, subjektive Anmerkungen oder kulturelle Perspektiven gehören, die den Datensatz verzerren. Wenn zum Beispiel ein Objekt in einer Region als "Fahrzeug", in einer anderen aber als "Auto" bezeichnet wird, kann das zu Unstimmigkeiten führen. Tools wie Roboflow können dabei helfen, die einheitliche Kennzeichnung von Daten zu optimieren.

Zeitliche Verzerrung

Zeitliche Verzerrungen treten auf, wenn die Daten Veränderungen im Laufe der Zeit nicht berücksichtigen. Wenn zum Beispiel ein Verkehrsvorhersagemodell mit Daten aus der Zeit vor der Pandemie trainiert wird, kann dies zu ungenauen Vorhersagen nach der Pandemie führen. Um dem entgegenzuwirken, ist eine kontinuierliche Datenerfassung und Modellaktualisierung erforderlich, die durch Plattformen wie Ultralytics HUB für eine einfache Datensatzverwaltung unterstützt wird.

Geografische Vorurteile

Geografische Verzerrungen entstehen, wenn Daten von einem bestimmten Ort gesammelt werden, wodurch das Modell in anderen Regionen weniger effektiv ist. Ein Agrarmodell, das für Kulturen aus Europa trainiert wurde, lässt sich zum Beispiel nicht gut auf afrikanische Betriebe übertragen. Erfahre mehr über KI in der Landwirtschaft und erhalte Einblicke in verschiedene Anwendungen.

Beispiele aus der realen Welt

Gesundheitswesen

Verzerrte Datensätze im Gesundheitswesen können schwerwiegende Folgen haben. So können Modelle, die auf Daten von überwiegend männlichen Patienten trainiert wurden, bei der Diagnose von Krankheiten weiblicher Patienten unterdurchschnittliche Ergebnisse erzielen. Um hier Abhilfe zu schaffen, sind ausgewogene Datensätze erforderlich, wie sie in KI-Anwendungen im Gesundheitswesen verwendet werden, um gerechte Ergebnisse zu erzielen.

Autonome Fahrzeuge

Bei selbstfahrenden Autos kann es zu einer Verzerrung des Datensatzes kommen, wenn die Trainingsdaten überwiegend städtische Umgebungen abbilden, was zu einer schlechten Leistung in ländlichen Gebieten führt. Vielfältige Datensätze wie Argoverse können helfen, die Robustheit des Modells bei unterschiedlichen Fahrbedingungen zu verbessern. Weitere Anwendungen findest du unter KI im selbstfahrenden Auto.

Umgang mit Verzerrungen im Datensatz

Datenerweiterung

Techniken zur Datenerweiterung wie Drehen, Spiegeln und Skalieren können dazu beitragen, die Verzerrung von Datensätzen zu verringern, indem sie die Vielfalt der Trainingsdaten künstlich erhöhen. Erfahre mehr in unserem Leitfaden zur Datenerweiterung.

Vielfältige und integrative Datenerhebung

Es ist von entscheidender Bedeutung, dass die Datensätze ein breites Spektrum an demografischen und geografischen Merkmalen sowie Szenarien umfassen. Tools wie Ultralytics Explorer vereinfachen die Erkundung und Auswahl verschiedener Datensätze.

Regelmäßige Audits

Regelmäßige Prüfungen, um Verzerrungen in Datensätzen zu erkennen und zu korrigieren, sind entscheidend für die Wahrung der Fairness. Tipps zur Bewertung der Modellleistung findest du unter Einblicke in die Modellevaluation.

Erklärbare KI

Der Einsatz von Techniken der erklärbaren KI (Explainable AI, XAI) kann dabei helfen, aufzudecken, wie Verzerrungen im Datensatz die Modellentscheidungen beeinflussen, und so gezielte Korrekturen ermöglichen.

Unterscheidung zwischen Datensatzverzerrungen und verwandten Konzepten

  • Voreingenommenheit in der KI: Während sich die Voreingenommenheit von Datensätzen speziell auf Probleme konzentriert, die sich aus dem Datensatz ergeben, umfasst Voreingenommenheit in der KI umfassendere Themen, einschließlich algorithmischer und gesellschaftlicher Voreingenommenheit.
  • Algorithmische Verzerrung: Dies bezieht sich auf Verzerrungen, die durch die Architektur des Modells oder den Trainingsalgorithmus verursacht werden, und nicht durch den Datensatz selbst. Erfahre mehr im Glossareintrag Algorithmische Verzerrungen.

Schlussfolgerung

Die Verzerrung von Datensätzen ist eine kritische Herausforderung beim maschinellen Lernen, die proaktiv erkannt und gemildert werden muss. Durch die Nutzung verschiedener Datensätze, den Einsatz fortschrittlicher Tools wie Ultralytics HUB und die Einhaltung von Best Practices bei der Datensammlung und -prüfung können Entwickler fairere und zuverlässigere KI-Modelle erstellen. Weitere Informationen findest du in unserem KI- und Computer Vision-Glossar und den dazugehörigen Ressourcen.

Alles lesen