Glossar

Validierungsdaten

Optimiere Modelle für maschinelles Lernen mit Validierungsdaten, um eine Überanpassung zu verhindern, Hyperparameter abzustimmen und eine robuste, reale Leistung sicherzustellen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Validierungsdaten sind eine wichtige Komponente im Entwicklungszyklus des Maschinellen Lernens (ML). Sie sind eine separate Untergruppe des ursprünglichen Datensatzes und unterscheiden sich von den Trainingsdaten, die zur Anpassung des Modells verwendet werden, und den Testdaten, die für die abschließende Bewertung verwendet werden. Der Hauptzweck der Validierungsdaten besteht darin, eine unvoreingenommene Bewertung der Anpassung des Modells an den Trainingsdatensatz vorzunehmen, während die Hyperparameter des Modells abgestimmt und Entscheidungen über die Architektur des Modells getroffen werden. Dieser Prozess hilft dabei, die beste Modellkonfiguration auszuwählen, bevor die endgültige Leistung des Modells auf ungesehenen Daten bewertet wird.

Die Rolle der Validierungsdaten

Während des Modelltrainings lernt ein ML-Modell Muster aus den Trainingsdaten. Die Bewertung des Modells allein anhand dieser Daten kann jedoch irreführend sein, da sich das Modell die Trainingsbeispiele einfach merken könnte - ein Phänomen, das als Overfitting bekannt ist. Validierungsdaten dienen als Kontrollpunkt. Indem sie die Leistung des Modells während des Trainings regelmäßig an diesem separaten Datensatz überprüfen, können Entwickler/innen:

  1. Hyperparameter abstimmen: Passe Einstellungen wie die Lernrate, die Stapelgröße oder die Modellkomplexität auf der Grundlage von Leistungskennzahlen(Genauigkeit, mAP usw.) an, die anhand der Validierungsmenge berechnet wurden. Dazu werden häufig Techniken verwendet, die in den Leitfäden zur Abstimmung von Hyperparametern beschrieben werden.
  2. Modelle auswählen: Vergleiche verschiedene Modellarchitekturen oder -versionen (z. B. Ultralytics YOLOv8 vs. YOLOv10) auf der Grundlage ihrer Validierungsleistung.
  3. Verhindere Überanpassung: Überwache die Validierungsmetriken, um zu erkennen, wenn das Modell in der Validierungsmenge schlechter abschneidet, obwohl sich die Trainingsleistung verbessert hat, was auf eine Überanpassung hindeutet. Techniken wie das frühzeitige Stoppen hängen von der Validierungsleistung ab.

Validierungsdaten vs. Trainings- und Testdaten

Die Unterscheidung zwischen Trainings-, Validierungs- und Testdatensätzen ist für eine robuste Modellentwicklung unerlässlich:

  • Trainingsdaten: Der größte Teil des Datensatzes, der direkt vom Lernalgorithmus verwendet wird, um Muster zu lernen und die Modellgewichte anzupassen. Das Modell "sieht" diese Daten häufig während der Trainingsschleifen(Epochen).
  • Validierungsdaten: Ein kleinerer Teil, der beim Training indirekt verwendet wird. Das Modell lernt nicht direkt aus diesen Daten, aber die Leistung auf diesem Datensatz dient als Entscheidungshilfe für die Hyperparameter und die Modellstruktur. Sie geben Aufschluss darüber, wie gut das Modell in der Entwicklungsphase auf neue Daten verallgemeinert werden kann.
  • Testdaten: Ein völlig separater Teil der Daten, den das Modell während des Trainings oder der Validierung nie gesehen hat. Sie werden nur einmal verwendet, nachdem das Training und die Abstimmung abgeschlossen sind, um eine endgültige, unvoreingenommene Einschätzung der Generalisierungsfähigkeit des Modells auf ungesehenen realen Daten zu erhalten.

Eine ordnungsgemäße Trennung, die oft mit Tools wie Ultralytics HUB für die Versionierung und Verwaltung von Datensätzen verwaltet wird, stellt sicher, dass die Informationen aus dem Testsatz nicht in den Trainings- oder Modellauswahlprozess "durchsickern", was zu allzu optimistischen Leistungsschätzungen führen würde.

Abstimmung der Hyperparameter und Modellauswahl

Validierungsdaten sind für die Abstimmung der Hyperparameter unerlässlich. Hyperparameter sind Konfigurationseinstellungen außerhalb des Modells selbst, die vor Beginn des Lernprozesses festgelegt werden. Beispiele dafür sind die Lernrate, die Anzahl der Schichten in einem neuronalen Netz oder die Art des verwendeten Optimierungsalgorithmus. Die Entwickler/innen trainieren mehrere Modellversionen mit verschiedenen Hyperparameterkombinationen, bewerten jede davon auf der Validierungsmenge und wählen dann die Kombination aus, die die beste Leistung erbringt. Diese systematische Suche kann mit Methoden wie der Rastersuche oder der Bayes'schen Optimierung automatisiert werden und wird oft durch Plattformen erleichtert, die in MLOps-Tools integriert sind.

Beispiele aus der realen Welt

  1. Computer Vision Object Detection: Beim Training einer Ultralytics YOLO Modells zur Erkennung von Objekten in Bildern (z. B. mit dem VisDrone-Datensatz) wird ein Teil der beschrifteten Bilder als Validierungsdaten beiseite gelegt. Während des Trainings wird die mAP (mittlere durchschnittliche Genauigkeit) des Modells nach jeder Epoche anhand dieser Validierungsdaten berechnet. Die mAP der Validierung hilft bei der Entscheidung, wann das Training abgebrochen werden sollte (vorzeitiger Abbruch) oder welche Datenerweiterungstechniken am besten funktionieren, bevor eine abschließende Leistungsüberprüfung auf dem Testset erfolgt. Effektive Modellevaluierungsstrategien hängen stark von dieser Aufteilung ab.
  2. Natürliche Sprachverarbeitung Textklassifizierung: Bei der Entwicklung eines Modells zur Klassifizierung von Kundenrezensionen als positiv oder negativ(Sentiment-Analyse) wird ein Validierungsset verwendet, um die optimale Architektur (z. B. LSTM vs. Transformer) zu wählen oder Hyperparameter wie die Dropout-Rate zu optimieren. Das Modell mit dem höchsten F1-Score oder der höchsten Genauigkeit in der Validierungsmenge wird für die endgültigen Tests ausgewählt. Ressourcen wie Hugging Face stellen zu diesem Zweck oft bereits geteilte Datensätze zur Verfügung.

Kreuzvalidierung

Wenn die Menge der verfügbaren Daten begrenzt ist, wird oft eine Technik namens Kreuzvalidierung (speziell K-Fold Cross-Validation) eingesetzt. Dabei werden die Trainingsdaten in "K" Teilmengen (Fold) aufgeteilt. Das Modell wird K-mal trainiert, wobei jedes Mal K-1 Fold für das Training und der verbleibende Fold als Validierungsset verwendet wird. Die Leistung wird dann über alle K Durchläufe gemittelt. So erhältst du eine robustere Schätzung der Modellleistung und kannst begrenzte Daten besser nutzen, wie in der Ultralytics Anleitung zur K-Fold Cross-Validation erklärt wird.

Zusammenfassend lässt sich sagen, dass Validierungsdaten ein Eckpfeiler für den Aufbau zuverlässiger und leistungsstarker Modelle der Künstlichen Intelligenz (KI) sind. Sie ermöglichen ein effektives Hyperparameter-Tuning, die Modellauswahl und die Vermeidung von Overfitting und stellen sicher, dass die Modelle weit über die Daten hinaus verallgemeinert werden, auf denen sie trainiert wurden.

Alles lesen