Glossar

Datenvorverarbeitung

Beherrsche die Vorverarbeitung von Daten für maschinelles Lernen. Lerne Techniken wie Bereinigung, Skalierung und Kodierung, um die Genauigkeit und Leistung der Modelle zu verbessern.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Datenvorverarbeitung ist ein entscheidender Schritt in der Pipeline des maschinellen Lernens, bei dem Rohdaten bereinigt, umgewandelt und organisiert werden, um sie für das Modelltraining geeignet zu machen. Die Qualität der Eingabedaten hat einen erheblichen Einfluss auf die Leistung und Genauigkeit von maschinellen Lernmodellen. Daher ist eine effektive Datenvorverarbeitung für den Aufbau robuster und zuverlässiger KI-Systeme unerlässlich. Dieser Prozess umfasst in der Regel die Bearbeitung fehlender Werte, den Umgang mit Ausreißern, die Normalisierung oder Standardisierung von Merkmalen und die Umwandlung kategorischer Variablen in numerische Darstellungen.

Die Bedeutung der Datenvorverarbeitung

Die Vorverarbeitung von Daten ist aus mehreren Gründen wichtig. Erstens stellt sie sicher, dass die in ein Modell eingespeisten Daten von hoher Qualität sind, was zu genaueren und zuverlässigeren Vorhersagen führen kann. Rohdaten enthalten oft Fehler, Ungereimtheiten und Rauschen, die sich negativ auf die Modellleistung auswirken können. Durch die Bereinigung und Umwandlung der Daten können diese Probleme gemildert werden, was zu einer höheren Modellgenauigkeit führt. Zweitens kann die Vorverarbeitung dazu beitragen, die Komplexität der Daten zu reduzieren, so dass die Modelle leichter Muster und Beziehungen lernen können. Dies kann zu schnelleren Trainingszeiten und einer effizienteren Modellleistung führen. Schließlich können Vorverarbeitungsschritte wie Normalisierung und Standardisierung die Stabilität und Konvergenz von Algorithmen des maschinellen Lernens verbessern, vor allem von solchen, die empfindlich auf Merkmalsskalen reagieren, wie z. B. der Gradientenabstieg.

Gängige Techniken der Datenvorverarbeitung

Bei der Datenvorverarbeitung werden üblicherweise verschiedene Techniken eingesetzt:

  • Datenbereinigung: Hier geht es um den Umgang mit fehlenden Werten, die Korrektur von Fehlern und die Beseitigung von Inkonsistenzen in den Daten. Fehlende Werte können mit verschiedenen Methoden korrigiert werden, z. B. mit Mittelwert-, Median- oder Moduskorrekturen oder mit fortschrittlicheren Techniken wie der K-Nächste-Nachbarn-Korrektur.
  • Datentransformation: Dazu gehören Techniken wie Normalisierung und Standardisierung, die numerische Merkmale auf einen Standardbereich skalieren und verhindern, dass Merkmale mit größeren Werten den Lernprozess dominieren.
  • Datenreduzierung: Hier geht es darum, die Größe des Datensatzes zu reduzieren und gleichzeitig die wichtigsten Informationen zu erhalten. Techniken wie die Hauptkomponentenanalyse (PCA) können eingesetzt werden, um die Dimensionalität der Daten zu reduzieren, indem die wichtigsten Merkmale identifiziert werden.
  • Merkmalsskalierung: Die Skalierung von Merkmalen ist eine Methode, um den Bereich der unabhängigen Variablen oder Merkmale von Daten zu normalisieren. Techniken wie Min-Max-Skalierung oder Z-Score-Normalisierung werden häufig verwendet.
  • Merkmalskodierung: Kategoriale Variablen werden oft in numerische Darstellungen kodiert, um sie in maschinellen Lernmodellen zu verwenden. Zu den gängigen Kodierungstechniken gehören One-Hot-Kodierung und Label-Kodierung.

Datenvorverarbeitung in realen Anwendungen

Die Datenvorverarbeitung spielt in verschiedenen realen KI- und Machine-Learning-Anwendungen eine entscheidende Rolle. Hier sind zwei konkrete Beispiele:

  1. Autonome Fahrzeuge: In autonomen Fahrzeugen müssen die Daten von verschiedenen Sensoren wie Kameras, Lidar und Radar vorverarbeitet werden, bevor sie für Aufgaben wie die Objekterkennung und die Wegplanung verwendet werden können. Zu den Vorverarbeitungsschritten gehören Rauschunterdrückung, Bildentzerrung und Sensorfusion, um eine einheitliche und genaue Darstellung der Fahrzeugumgebung zu erhalten. Computer-Vision-Modelle wie Ultralytics YOLO sind auf qualitativ hochwertige Eingangsdaten angewiesen, um Objekte in Echtzeit genau zu erkennen und zu klassifizieren.
  2. Medizinische Bildanalyse: Bei der medizinischen Bildanalyse ist die Vorverarbeitung wichtig, um die Genauigkeit der Diagnoseinstrumente zu verbessern. MRT- oder CT-Bilder können zum Beispiel durch Rauschunterdrückung, Kontrastverstärkung und Normalisierung vorverarbeitet werden, um wichtige Merkmale wie Tumore oder Läsionen hervorzuheben. Diese vorverarbeiteten Bilder werden dann verwendet, um Deep-Learning-Modelle für Aufgaben wie Bildsegmentierung und Klassifizierung zu trainieren und so eine frühe und genaue Krankheitsdiagnose zu ermöglichen.

Datenvorverarbeitung vs. andere verwandte Begriffe

Die Datenvorverarbeitung ist ein weit gefasster Begriff, der oft mit anderen verwandten Konzepten in der Datenaufbereitungspipeline in Verbindung gebracht wird:

  • Datenbereinigung: Die Datenbereinigung ist ein Teilbereich der Datenvorverarbeitung, der sich speziell auf die Identifizierung und Korrektur von Fehlern, Inkonsistenzen und fehlenden Werten in den Daten konzentriert. Die Datenbereinigung ist zwar ein wichtiger Teil der Vorverarbeitung, konzentriert sich aber eher auf Fragen der Datenqualität. Erfahre mehr über Best Practices bei der Datenerfassung und -beschriftung.
  • Datenerweiterung: Die Datenerweiterung ist eine Technik, mit der die Größe des Trainingsdatensatzes künstlich vergrößert wird, indem modifizierte Versionen der vorhandenen Datenpunkte erstellt werden. Dies ist besonders nützlich bei Deep Learning-Anwendungen, für die große Datenmengen benötigt werden. Die Datenerweiterung kann als eine Form der Datenvorverarbeitung betrachtet werden, zielt aber speziell darauf ab, die Modellgeneralisierung zu verbessern, indem mehr Variabilität in die Trainingsdaten eingebracht wird. Erfahre mehr über die Vorverarbeitung von annotierten Daten.
  • Feature Engineering: Beim Feature-Engineering werden neue Features erstellt oder bestehende verändert, um die Modellleistung zu verbessern. Dies kann Techniken wie die Erstellung von Interaktionsterms, polynomialen Merkmalen oder domänenspezifischen Merkmalen umfassen. Sowohl Feature Engineering als auch Data Preprocessing zielen darauf ab, die Qualität der Daten zu verbessern. Beim Feature Engineering liegt der Schwerpunkt jedoch eher auf der Erstellung neuer Informationen, während sich die Datenvorverarbeitung auf die Bereinigung und Umwandlung vorhandener Daten konzentriert. Tipps zum Modelltraining und zur Modellevaluierung findest du in den Ultralytics docs.

Wenn du diese Vorverarbeitungstechniken verstehst und anwendest, kannst du sicherstellen, dass deine Machine-Learning-Modelle auf qualitativ hochwertigen Daten trainiert werden, was zu einer besseren Leistung, Genauigkeit und Zuverlässigkeit führt. Erfahre mehr über die Möglichkeiten der Modellbereitstellung und die besten Praktiken für die Modellbereitstellung.

Alles lesen