Glossar

Vorverarbeitung von Daten

Beherrschen Sie die Vorverarbeitung von Daten für maschinelles Lernen. Lernen Sie Techniken wie Bereinigung, Skalierung und Kodierung, um die Modellgenauigkeit und -leistung zu steigern.

Die Datenvorverarbeitung ist ein entscheidender Schritt in der Pipeline des maschinellen Lernens (ML), bei dem Rohdaten bereinigt, umgewandelt und organisiert werden, um sie für das Training und die Erstellung von Modellen geeignet zu machen. Rohdaten aus der realen Welt sind oft unvollständig, inkonsistent und können Fehler enthalten. Durch die Vorverarbeitung werden diese unordentlichen Daten in ein sauberes, gut strukturiertes Format umgewandelt, das für ein Modell zum effektiven Lernen unerlässlich ist. Die Qualität der Vorhersagen eines Modells hängt in hohem Maße von der Qualität der Daten ab, auf denen es trainiert wurde. Daher ist die Datenvorverarbeitung ein grundlegendes Verfahren, um eine hohe Genauigkeit und zuverlässige Leistung in KI-Systemen zu erreichen.

Schlüsselaufgaben bei der Datenvorverarbeitung

Datenvorverarbeitung ist ein weit gefasster Begriff, der eine Vielzahl von Techniken zur Datenvorbereitung umfasst. Die spezifischen Schritte hängen vom Datensatz und der ML-Aufgabe ab, aber zu den allgemeinen Aufgaben gehören:

  • Datenbereinigung: Hierbei handelt es sich um den Prozess der Identifizierung und Korrektur oder Entfernung von Fehlern, Inkonsistenzen und fehlenden Werten in einem Datensatz. Dazu kann es gehören, fehlende Daten mit statistischen Methoden zu ergänzen oder doppelte Einträge zu entfernen. Saubere Daten sind der Grundstein für jedes zuverlässige Modell.
  • Datenumwandlung: Hierbei wird die Skalierung oder Verteilung der Daten geändert. Eine gängige Technik ist Normalisierungbei der numerische Merkmale auf einen Standardbereich (z. B. 0 bis 1) skaliert werden, um zu verhindern, dass Merkmale mit größeren Skalen den Lernprozess dominieren. Weitere Informationen über verschiedene Skalierungsmethoden finden Sie in der scikit-learn-Dokumentation zur Vorverarbeitung.
  • Feature Engineering: Hierbei handelt es sich um den kreativen Prozess der Erstellung neuer Merkmale aus vorhandenen, um die Modellleistung zu verbessern. Dies kann die Kombination von Merkmalen, deren Zerlegung oder die Nutzung von Fachwissen zur Extraktion aussagekräftigerer Informationen beinhalten. Ein verwandtes Konzept ist Merkmalsextraktiondie automatisch die Dimensionalität der Daten reduziert.
  • Kodierung kategorischer Daten: Viele ML-Algorithmen erfordern numerische Eingaben. Die Vorverarbeitung umfasst häufig die Konvertierung kategorischer Daten (wie Textbeschriftungen) in ein numerisches Format durch Techniken wie die One-Hot-Codierung.
  • Größenänderung und Vergrößerung: In der Computer Vision (CV) umfasst die Vorverarbeitung die Größenanpassung von Bildern an eine einheitliche Dimension. Sie kann auch gefolgt werden von Datenerweiterungfolgen, bei der der Datensatz künstlich erweitert wird, indem veränderte Versionen der Bilder erstellt werden.

Real-World AI/ML-Anwendungen

Die Datenvorverarbeitung ist eine universelle Anforderung in allen KI-Bereichen. Ihre Anwendung ist entscheidend für den Erfolg sowohl bei einfachen als auch bei komplexen Aufgaben.

  1. Medizinische Bildanalyse: Bevor ein YOLO-Modell für die Erkennung von Tumoren in MRT-Scans aus einem Datensatz wie dem Hirntumordatensatz trainiert werden kann, müssen die Bilder vorverarbeitet werden. Dazu gehört die Normalisierung der Pixelintensitätswerte, um Unterschiede in der Scan-Ausrüstung zu berücksichtigen, die Größenanpassung aller Bilder auf eine einheitliche Eingabegröße, die für das Backbone des Modells erforderlich ist, und die Bereinigung des Datensatzes, um beschädigte Dateien oder falsch beschriftete Beispiele zu entfernen. Auf diese Weise wird sichergestellt, dass das neuronale Faltungsnetzwerk (CNN) die wahren pathologischen Merkmale eines Modells erlernt und nicht die Unterschiede in der Bildgebung. Mehr dazu erfahren Sie in unserem Blog über die Verwendung von YOLO für die Tumorerkennung.
  2. KI-gestützte Prognosen für den Einzelhandel: Für ein Modell, das die Kundennachfrage im Einzelhandel vorhersagt, enthalten die rohen Verkaufsdaten oft fehlende Transaktionsdatensätze, inkonsistente Produktbezeichnungen und Merkmale auf sehr unterschiedlichen Skalen (z. B. "Artikelpreis" vs. "Anzahl der verkauften Artikel"). Die Vorverarbeitung umfasst hier die Imputation fehlender Verkaufszahlen, die Standardisierung von Produktnamen und die Normalisierung numerischer Merkmale, so dass der Algorithmus für die Vorhersagemodellierung die Bedeutung der einzelnen Faktoren effektiv abwägen kann. Ein Überblick über das Preprocessing für Unternehmen zeigt diese Schritte.

Datenvorverarbeitung im Vergleich zu verwandten Konzepten

Es ist hilfreich, die Datenvorverarbeitung von anderen verwandten Begriffen der Datenverwaltung zu unterscheiden.

  • Datenbereinigung: Wie bereits erwähnt, ist die Datenbereinigung ein Teilbereich der Datenvorverarbeitung. Während die Vorverarbeitung den gesamten Prozess der Vorbereitung von Daten für ein Modell umfasst, konzentriert sich die Bereinigung speziell auf die Korrektur von Fehlern, die Behandlung fehlender Werte und die Beseitigung von Inkonsistenzen im Rohdatensatz.
  • Datenerweiterung: Die Datenvergrößerung ist eine Technik, mit der der Umfang der Trainingsdaten künstlich vergrößert wird. Sie ist zwar Teil der Datenvorbereitung für das Training, wird aber in der Regel angewandt , nachdem erste Vorverarbeitungsschritte wie Bereinigung und Größenanpassung des Originaldatensatzes bereits abgeschlossen sind. Das Ziel der Augmentation ist es, die Modellgeneralisierung zu verbessern, während die Vorverarbeitung darauf abzielt, die Originaldaten nutzbar zu machen.
  • Datenanalyse: Die Datenanalyse ist ein viel breiteres Feld, das die Untersuchung von Datensätzen umfasst, um Schlussfolgerungen zu ziehen und die Entscheidungsfindung zu unterstützen. Die Datenvorverarbeitung ist der grundlegende erste Schritt innerhalb eines Datenanalyse-Workflows, der auch die explorative Datenanalyse (EDA), die Modellierung und die Datenvisualisierung umfasst.

Plattformen wie Ultralytics HUB können bei der Verwaltung von Datensätzen helfen und den ML-Lebenszyklus von der Datenaufbereitung bis zur Modellbereitstellung rationalisieren. Der Leitfaden zur Vorverarbeitung von kommentierten Daten bietet weitere praktische Einblicke.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert