Glossar

Datenbereinigung

Meistere die Datenbereinigung für KI- und ML-Projekte. Lerne Techniken, um Fehler zu beheben, die Datenqualität zu verbessern und die Modellleistung effektiv zu steigern!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Bei der Datenbereinigung geht es darum, Fehler, Unstimmigkeiten, Ungenauigkeiten und beschädigte Datensätze in einem Datensatz zu identifizieren und zu korrigieren oder zu entfernen. Sie stellt sicher, dass die Daten genau, konsistent und nutzbar sind, was für die Erstellung zuverlässiger und effektiver Modelle für künstliche Intelligenz (KI) und maschinelles Lernen (ML) von grundlegender Bedeutung ist. Stell dir vor, du bereitest vor dem Kochen hochwertige Zutaten zu. Ohne saubere Daten wird das Endergebnis (das KI-Modell) wahrscheinlich fehlerhaft sein, ganz nach dem in der Datenwissenschaft üblichen Prinzip "Garbage in, garbage out". Saubere Daten führen zu einer besseren Modellleistung, zuverlässigeren Erkenntnissen und weniger Verzerrungen.

Relevanz in KI und maschinellem Lernen

In der KI und im ML hat die Qualität der Trainingsdaten einen direkten Einfluss auf die Modellgenauigkeit und die Generalisierungsfähigkeit. Die Datenbereinigung ist ein wichtiger erster Schritt im ML-Workflow, der oft Aufgaben wie Feature Engineering und Modelltraining vorausgeht. Modelle wie Ultralytics YOLOdie für anspruchsvolle Aufgaben wie die Objekterkennung eingesetzt werden, sind stark auf saubere, gut strukturierte Datensätze angewiesen, um effektiv zu lernen. Fehler wie falsch beschriftete Bilder, inkonsistente Bounding-Box-Formate oder fehlende Werte können die Leistung erheblich beeinträchtigen und zu unzuverlässigen Vorhersagen in realen Anwendungen führen. Durch die Bereinigung der Daten kann sichergestellt werden, dass das Modell aussagekräftige Muster lernt und nicht das Rauschen oder die Fehler in den Rohdaten.

Gemeinsame Aufgaben zur Datenbereinigung

Die Datenbereinigung umfasst verschiedene Techniken, die auf die spezifischen Probleme eines Datensatzes zugeschnitten sind. Zu den üblichen Aufgaben gehören:

  • Umgang mit fehlenden Werten: Identifizierung und Behebung fehlender Datenpunkte durch Methoden wie Imputation (Auffüllen von Lücken auf der Grundlage anderer Daten) oder Entfernung der betroffenen Datensätze. Die Strategien für den Umgang mit fehlenden Daten variieren je nach Kontext.
  • Korrigieren von strukturellen Fehlern: Beseitigung von Tippfehlern, Vereinheitlichung der Großschreibung, Sicherstellung einer einheitlichen Formatierung (z. B. Datumsformate) und Korrektur von Datentypproblemen.
  • Entfernen von Duplikaten: Identifizieren und Entfernen von identischen oder fast identischen Datensätzen, die die Analyse oder das Modelltraining verfälschen können.
  • Umgang mit Ausreißern: Erkennen und Verwalten von Datenpunkten, die erheblich vom Rest des Datensatzes abweichen, bei denen es sich um Fehler oder echte Extremwerte handeln kann. Es ist wichtig, die Methoden zur Erkennung von Ausreißern zu verstehen.
  • Unstimmigkeiten beseitigen: Auflösen widersprüchlicher Daten, wie z.B. widersprüchliche Kategoriebezeichnungen oder unlogische Wertekombinationen.

Anwendungen in der realen Welt

Die Datenbereinigung ist für zahlreiche KI/ML-Anwendungen unerlässlich:

  1. Gesundheitswesen: Bei der medizinischen Bildanalyse geht es darum, Bildformate zu standardisieren, demografische Fehler in den zugehörigen Datensätzen zu korrigieren und sicherzustellen, dass die Diagnosemarken konsistent sind, bevor Modelle für die Krankheitserkennung trainiert werden. Dadurch wird die Zuverlässigkeit von KI-Tools zur Unterstützung von Ärzten verbessert. Erfahre mehr über KI im Gesundheitswesen.
  2. Einzelhandelsanalyse: Für den Aufbau von Empfehlungssystemen bedeutet das Bereinigen der Kaufhistorie von Kunden das Entfernen doppelter Transaktionen, das Vereinheitlichen von Produktnamen, das Korrigieren ungültiger Einträge (z. B. negative Mengen) und das Zusammenführen von Kundenprofilen, um eine einheitliche Ansicht für eine genaue Personalisierung zu schaffen. Erfahre, wie dies dazu beiträgt, die Effizienz im Einzelhandel mit KI zu steigern.

Datenbereinigung vs. verwandte Konzepte

Es ist wichtig, die Datenbereinigung von den damit verbundenen Schritten der Datenaufbereitung zu unterscheiden:

  • Datenvorverarbeitung: Die Datenbereinigung ist ein Teilbereich der umfassenderen Datenvorverarbeitung. Die Vorverarbeitung umfasst die Bereinigung, aber auch die Transformation von Daten (z. B. Skalierung, Normalisierung), die Auswahl von Merkmalen und die Dimensionalitätsreduktion, um die Daten vollständig für ML-Modelle vorzubereiten. Im Leitfaden zur Vorverarbeitung von kommentierten Daten findest du weitere Informationen.
  • Datenbeschriftung: Während es bei der Bereinigung um die Korrektur fehlerhafter Beschriftungen gehen kann, geht es bei der Datenbeschriftung in erster Linie um das Hinzufügen von Anmerkungen (wie Bounding Boxes oder Klassen-Tags) zu den Rohdaten, die häufig über Plattformen wie Ultralytics HUB verwaltet werden. Bei der Bereinigung geht es darum, inhärente Fehler in den Daten selbst oder in den vorhandenen Beschriftungen zu korrigieren.
  • Datenerweiterung: Die Datenerweiterung zielt darauf ab, den Umfang und die Vielfalt des Trainingsdatensatzes künstlich zu vergrößern, indem modifizierte Versionen bestehender Daten (z. B. rotierende Bilder) erstellt werden. Bei der Datenbereinigung geht es dagegen darum, die Qualität des ursprünglichen Datensatzes zu verbessern.

Die Datenbereinigung ist eine grundlegende, oft iterative Praxis, die die Zuverlässigkeit und Leistung von KI-Systemen erheblich steigert, indem sie sicherstellt, dass die zugrunde liegenden Daten einwandfrei sind. Tools wie die Pandas-Bibliothek werden häufig für die Datenmanipulation und -bereinigung in Python ML-Workflows verwendet. Die Sicherstellung der Datenqualität durch rigorose Bereinigung ist entscheidend für die Entwicklung vertrauenswürdiger KI, insbesondere bei der Arbeit mit komplexen Computer-Vision-Aufgaben oder großen Benchmark-Datensätzen.

Alles lesen