Die Datenvorverarbeitung bezieht sich auf die entscheidenden Schritte, die unternommen werden, um Rohdaten zu bereinigen, umzuwandeln und in ein geeignetes Format zu bringen, bevor sie in ein Modell für maschinelles Lernen (ML) eingespeist werden. Die in der realen Welt erhobenen Rohdaten sind oft unvollständig, inkonsistent und enthalten Fehler oder Rauschen. Die Vorverarbeitung zielt darauf ab, diese Probleme zu beseitigen und die Qualität der Daten und damit auch die Leistung, Genauigkeit und Zuverlässigkeit der darauf trainierten ML-Modelle deutlich zu verbessern. Sie ist ein grundlegender Schritt in jedem datengesteuerten Projekt, auch in den Bereichen Künstliche Intelligenz (KI) und Computer Vision (CV).
Warum ist die Datenvorverarbeitung wichtig?
Modelle für maschinelles Lernen lernen Muster aus Daten. Wenn die Daten fehlerhaft sind, lernt das Modell falsche Muster, was zu schlechten Vorhersagen und Entscheidungen führt. Qualitativ hochwertige, gut aufbereitete Daten sind entscheidend für die Erstellung robuster Modelle wie Ultralytics YOLO für Aufgaben wie die Objekterkennung. Effektive Datenvorverarbeitung hilft dabei:
- Verbessere die Modellgenauigkeit: Saubere Daten führen zu präziseren Modellen.
- Reduziere die Trainingszeit: Das Entfernen von irrelevanten oder redundanten Daten kann den Trainingsprozess beschleunigen.
- Vermeiden von Fehlern: Der Umgang mit Inkonsistenzen verhindert, dass die Modelle falsche Korrelationen lernen.
- Bessere Generalisierung: Richtig aufbereitete Daten helfen den Modellen, besser auf ungesehene Daten zu reagieren, und verringern die Überanpassung.
Gängige Techniken der Datenvorverarbeitung
Bei der Datenvorverarbeitung werden üblicherweise verschiedene Techniken eingesetzt:
- Daten Reinigung: Dabei werden Fehler, Inkonsistenzen, fehlende Werte (Imputation) und Ausreißer im Datensatz identifiziert und behandelt. So wird sichergestellt, dass die Daten genau und konsistent sind.
- Datenumwandlung: Dazu gehören Techniken wie:
- Normalisierung / Skalierung: Anpassung des Bereichs oder der Verteilung von numerischen Merkmalen (z. B. Skalierung der Pixelwerte in Bildern von 0-255 auf 0-1). Dadurch wird sichergestellt, dass Merkmale mit größeren Werten das Modell nicht unverhältnismäßig stark beeinflussen.
- Kodierung kategorialer Variablen: Konvertierung von nicht-numerischen Daten (wie Kategorien oder Bezeichnungen) in ein numerisches Format, das Modelle verstehen können, mit Methoden wie der One-Hot-Codierung.
- Merkmal Technik: Erstellen neuer, potenziell aussagekräftigerer Merkmale aus bestehenden, um die Modellleistung zu verbessern.
- Merkmalsextraktion: Die automatische Ableitung neuer, niedrigerdimensionaler Merkmale aus den Originaldaten, die oft in der Bildverarbeitung verwendet wird.
- Dimensionalitätsreduktion: Verringerung der Anzahl der Eingangsmerkmale unter Beibehaltung wichtiger Informationen, was die Modelle vereinfachen und die Rechenkosten senken kann. Techniken wie die Hauptkomponentenanalyse (PCA) sind weit verbreitet.
- Bildvorverarbeitung: Speziell für Computer Vision umfasst dies die Größenanpassung von Bildern auf eine einheitliche Größe, die Umwandlung von Farbräumen (z. B. RGB in Graustufen) und die Anwendung von Filtern zur Rauschunterdrückung. Weitere Einzelheiten findest du im Ultralytics zur Vorverarbeitung von kommentierten Daten.
Anwendungen in der realen Welt
- Computer Vision für autonome Fahrzeuge: Die Bilddaten von Kameras müssen umfassend vorverarbeitet werden. Dazu gehören die Größenanpassung der Bilder, die Normalisierung der Pixelintensitäten, die Korrektur von Linsenverzerrungen und die Anwendung von Datenanreicherungstechniken wie zufällige Drehungen oder Helligkeitsanpassungen, um die Modelle zur Objekterkennung robust gegenüber unterschiedlichen Bedingungen zu machen. Plattformen wie Ultralytics HUB können bei der Verwaltung dieser Datensätze helfen.
- Vorausschauende Wartung in der Fertigung: Sensordaten (Temperatur, Vibration, Druck) von Maschinen sind oft verrauscht und können fehlende Messwerte enthalten. Bei der Vorverarbeitung werden diese Daten bereinigt, indem Rauschen herausgefiltert, fehlende Werte mit statistischen Methoden ergänzt und die Sensormesswerte normalisiert werden, bevor sie in ein ML-Modell zur Vorhersage von Maschinenausfällen eingespeist werden, wie in KI in der Fertigung beschrieben.
Datenvorverarbeitung im Vergleich zu verwandten Konzepten
- Datenbereinigung vs. Datenvorverarbeitung: Die Datenbereinigung ist ein Teilbereich der Datenvorverarbeitung und konzentriert sich auf die Behandlung von Fehlern, fehlenden Werten und Inkonsistenzen. Die Datenvorverarbeitung ist breiter angelegt und umfasst die Bereinigung, Umwandlung und Bearbeitung von Merkmalen.
- Datenbeschriftung vs. Datenvorverarbeitung: Bei der Datenkennzeichnung werden informative Tags oder Anmerkungen (wie Bounding Boxes für die Objekterkennung) zu den Rohdaten hinzugefügt, die die Grundlage für das überwachte Lernen bilden. Dies geschieht in der Regel vor der Datenvorverarbeitung, bei der die beschrifteten Daten für das Modelltraining vorbereitet werden. Weitere Informationen findest du im Leitfaden zur Datenerfassung und Beschriftung.
- Datenerweiterung vs. Datenvorverarbeitung: Die Datenerweiterung vergrößert künstlich die Größe und Vielfalt des Trainingsdatensatzes, indem sie veränderte Kopien der vorhandenen Daten erstellt (z. B. Bilder spiegeln, Rauschen hinzufügen). Sie ist zwar eng mit der Vorverarbeitung verwandt und wird oft parallel zu dieser angewandt, zielt aber in erster Linie darauf ab, die Modellgeneralisierung zu verbessern und nicht nur Daten zu bereinigen oder zu formatieren. Erfahre mehr über Tipps für das Modelltraining, die oft eine Erweiterung beinhalten.