Glossar

Validierungsdaten

Optimiere Modelle für maschinelles Lernen mit Validierungsdaten, um eine Überanpassung zu verhindern, Hyperparameter abzustimmen und eine robuste, reale Leistung sicherzustellen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Validierungsdaten sind ein wichtiger Teil des maschinellen Lernprozesses, um die Leistung eines Modells zu optimieren und eine Überanpassung zu verhindern. Sie dienen als Kontrolle während des Trainings und stellen sicher, dass das Modell auch auf ungesehene Daten verallgemeinert werden kann. Durch die Bewertung des Modells anhand von Validierungsdaten können Praktiker/innen fundierte Entscheidungen über die Modellarchitektur und Hyperparameter treffen, was zu robusteren und zuverlässigeren KI-Systemen führt.

Was sind Validierungsdaten?

Validierungsdaten sind eine Teilmenge des ursprünglichen Datensatzes, die während der Trainingsphase des Modells beiseite gelegt wird. Sie werden verwendet, um die Leistung eines maschinellen Lernmodells während des Trainings zu bewerten. Im Gegensatz zu den Trainingsdaten, aus denen das Modell direkt lernt, bieten die Validierungsdaten einen unabhängigen Bewertungspunkt. Sie helfen dabei, die Generalisierungsfähigkeit des Modells zu überprüfen, d. h. seine Fähigkeit, neue, noch nicht gesehene Daten korrekt zu verarbeiten. Die Validierungsdaten unterscheiden sich von den Testdaten, die erst ganz am Ende des Modellentwicklungsprozesses verwendet werden, um eine abschließende, unvoreingenommene Bewertung des trainierten Modells vorzunehmen.

Die Bedeutung von Validierungsdaten

Die Validierungsdaten spielen vor allem bei der Abstimmung der Hyperparameter und der Modellauswahl eine Rolle. Während des Trainings kann ein Modell für maschinelles Lernen anhand seiner Leistung in der Validierungsmenge angepasst werden. Wenn sich die Leistung des Modells in der Validierungsmenge verschlechtert, während sie sich in der Trainingsmenge weiter verbessert, ist das ein Zeichen für Overfitting. In solchen Fällen können Anpassungen wie Regularisierung oder Dropout-Layer angewendet und ihre Wirksamkeit anhand der Validierungsdaten bewertet werden. Techniken wie die K-Fold-Kreuzvalidierung können ebenfalls eingesetzt werden, um die begrenzten Daten sowohl für das Training als auch für die Validierung optimal zu nutzen. Die Überwachung von Validierungskennzahlen wie der Genauigkeit oder der mittleren durchschnittlichen Präzision (mAP) hilft bei der Entscheidung, wann das Training abgebrochen werden sollte, was häufig durch frühzeitiges Abbrechen geschieht, um eine Überanpassung zu verhindern und Rechenressourcen zu sparen.

Validierungsdaten vs. Trainings- und Testdaten

Bei Workflows zum maschinellen Lernen werden die Daten normalerweise in drei Gruppen aufgeteilt: Training, Validierung und Test.

  • Trainingsdaten: Das sind die Daten, aus denen das Modell lernt. Sie werden verwendet, um die weights and biases des Modells so anzupassen, dass die Verlustfunktion minimiert wird.
  • Validierungsdaten: Werden während des Trainings verwendet, um die Leistung des Modells zu bewerten und die Hyperparameter zu optimieren. Sie helfen, eine Überanpassung zu verhindern und die Modellauswahl zu steuern.
  • Testdaten: Werden erst verwendet, nachdem das Modell vollständig trainiert wurde, um eine endgültige, unvoreingenommene Einschätzung der Leistung des Modells auf ungesehenen Daten zu erhalten. Damit werden reale Szenarien simuliert und die Generalisierungsfähigkeit des Modells bewertet.

Der Hauptunterschied ist ihre Verwendung. Die Trainingsdaten dienen zum Lernen, die Validierungsdaten zur Abstimmung und Überwachung während des Trainings und die Testdaten zur abschließenden Bewertung nach dem Training. Die Verwendung getrennter Datensätze gewährleistet eine unvoreingenommene Bewertung der tatsächlichen Leistung des Modells. Für ein tieferes Verständnis der Datenvorverarbeitung für maschinelles Lernen können die Ressourcen zur Datenvorverarbeitung hilfreich sein.

Anwendungen von Validierungsdaten

Validierungsdaten sind für alle Anwendungen des maschinellen Lernens unerlässlich, auch für Ultralytics YOLO Modelle. Hier sind ein paar Beispiele:

  1. Objekterkennung in autonomen Fahrzeugen: Beim Training eines Objekterkennungsmodells wie Ultralytics YOLO für autonome Fahrzeuge helfen Validierungsdaten, die aus Bildern und Videos bestehen, die nicht für das Training verwendet wurden, um sicherzustellen, dass das Modell Fußgänger, Verkehrsschilder und andere Fahrzeuge unter verschiedenen und ungesehenen Fahrbedingungen richtig erkennt. Durch die Überwachung der Leistung anhand von Validierungsdaten können Ingenieure das Modell so abstimmen, dass es sich gut auf neue Straßenszenarien verallgemeinern lässt, was für die Sicherheit entscheidend ist. Zum Beispiel werden während YOLOv8 Während des Modelltrainings werden die Validierungsdaten kontinuierlich verfolgt, um die Hyperparameter des Modells zu optimieren.

  2. Medizinische Bildanalyse: Bei der medizinischen Bildanalyse zur Krankheitsdiagnose werden Validierungsdaten verwendet, um sicherzustellen, dass KI-Modelle Anomalien (wie Tumore oder Läsionen) in medizinischen Scans richtig erkennen, ohne sich zu sehr an die Trainingsfälle anzupassen. Wenn zum Beispiel ein Modell zur Erkennung von Hirntumoren anhand von MRT-Bildern trainiert wird, hilft ein separater Satz von MRT-Scans dabei, die Fähigkeit des Modells zur Verallgemeinerung auf neue Patientenscans zu verfeinern und so die Diagnosesicherheit zu erhöhen. Dieser Prozess ist bei Anwendungen wie der Tumorerkennung von entscheidender Bedeutung, da sich die Modellgenauigkeit direkt auf die Patientenversorgung auswirkt.

Durch die richtige Verwendung von Validierungsdaten können Praktiker/innen des maschinellen Lernens Modelle entwickeln, die nicht nur in den Trainingsdaten genau sind, sondern auch in realen Anwendungen robust und zuverlässig.

Alles lesen