Glossar

Test Daten

Erfahre, wie wichtig Testdaten in der KI sind und welche Rolle sie bei der Bewertung der Modellleistung, der Erkennung von Überanpassungen und der Gewährleistung der Zuverlässigkeit in der realen Welt spielen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Testdaten sind eine wichtige Komponente im Entwicklungszyklus von Machine Learning (ML). Dabei handelt es sich um einen unabhängigen Datensatz, der von den Trainings- und Validierungsdaten getrennt ist und ausschließlich für die abschließende Bewertung der Leistung eines Modells nach Abschluss der Trainings- und Optimierungsphase verwendet wird. Dieser Datensatz enthält Datenpunkte, mit denen das Modell noch nie in Berührung gekommen ist, und gibt eine unvoreingenommene Einschätzung darüber, wie gut das Modell bei neuen, realen Daten abschneiden wird. Das Hauptziel bei der Verwendung von Testdaten ist es, die Generalisierungsfähigkeit des Modells einzuschätzen - seine Fähigkeit, bei unbekannten Eingaben genau zu arbeiten.

Die Bedeutung von Testdaten

Der wahre Maßstab für den Erfolg eines ML-Modells liegt in seiner Fähigkeit, mit Daten umzugehen, für die es nicht explizit trainiert wurde. Testdaten dienen als letzter Kontrollpunkt und bieten eine objektive Bewertung der Leistung des Modells. Ohne einen speziellen Testdatensatz besteht ein hohes Risiko der Überanpassung, d. h. ein Modell lernt die Trainingsdaten zu gut, einschließlich des Rauschens und der spezifischen Muster, kann aber nicht auf neue Daten verallgemeinert werden. Die Verwendung von Testdaten stellt sicher, dass die gemeldeten Leistungsdaten die erwarteten Fähigkeiten des Modells widerspiegeln und schafft Vertrauen, bevor das Modell eingesetzt wird. Dieser abschließende Evaluierungsschritt ist entscheidend, um verschiedene Modelle oder Ansätze zuverlässig zu vergleichen, z. B. YOLOv8 mit YOLOv9.

Wesentliche Merkmale

Um effektiv zu sein, müssen die Testdaten bestimmte Merkmale aufweisen:

  • Unabhängigkeit: Es muss strikt von den Daten getrennt sein, die für Training und Validierung verwendet werden. Das Modell sollte während des Trainings oder der Abstimmung der Hyperparameter niemals die Testdaten sehen.
  • Repräsentativität: Es sollte die Eigenschaften und die Verteilung der realen Daten, auf die das Modell in der Produktion treffen wird, genau widerspiegeln. Dazu gehören ähnliche Arten von Eingaben, Variationen und potenzielle Sonderfälle. Bewährte Methoden der Datenerfassung und -beschriftung sind hier entscheidend.
  • Ausreichende Größe: Auch wenn die Testmenge oft kleiner ist als die Trainingsmenge, muss sie groß genug sein, um statistisch signifikante Ergebnisse zu liefern. Eine unzureichende Größe kann zu unzuverlässigen Leistungsschätzungen führen, wie in den ML Rules vonGoogle hervorgehoben wird.

Testdaten vs. Trainings- und Validierungsdaten

Es ist wichtig, Testdaten von anderen Datensplits zu unterscheiden, die in ML verwendet werden:

  • Trainingsdaten: Dies ist der größte Teil des Datensatzes, der direkt zum Trainieren des Modells verwendet wird, indem seine internen Parameter oder Gewichte angepasst werden.
  • Validierungsdaten: Diese separate Teilmenge wird während des Trainingsprozesses verwendet, um die Hyperparameter des Modells zu optimieren (z. B. die Lernrate oder die Wahl der Netzwerkarchitektur) und Entscheidungen über den Trainingsprozess selbst zu treffen (z. B. frühzeitiges Abbrechen). Auch wenn sie bei der Aktualisierung der Parameter nicht zu sehen sind, beeinflussen sie das endgültige Modell indirekt durch die Auswahl der Hyperparameter. Weitere Einzelheiten findest du in unserem Leitfaden zur Modellbewertung und Feinabstimmung.
  • Testdaten: Dieser Datensatz wird nur einmal verwendet, nachdem das Modell vollständig trainiert und abgestimmt wurde, um eine endgültige, unvoreingenommene Leistungsbewertung zu erhalten. Er sollte keinen Einfluss auf die Trainings- oder Optimierungsentscheidungen haben. Standard-Benchmark-Datensätze wie COCO werden oft mit vordefinierten Test-Splits für eine standardisierte Auswertung geliefert.

Beispiele aus der realen Welt

  1. Autonomes Fahren: Eine Ultralytics YOLO Modell, das für die Objekterkennung (Erkennung von Autos, Fußgängern, Ampeln) trainiert wurde, wird mit einem Testsatz von Straßenaufnahmen bewertet, die unter Bedingungen (Wetter, Tageszeit, Orte) aufgenommen wurden, die nicht in den Trainings- oder Validierungssätzen enthalten sind. So wird die Zuverlässigkeit des Modells in verschiedenen realen Fahrszenarien sichergestellt, was für die KI in selbstfahrenden Autos entscheidend ist.
  2. Medizinische Diagnostik: Ein Modell, das für die medizinische Bildanalyse entwickelt wurde, z. B. für die Erkennung von Tumoren in Röntgenbildern mit Hilfe von Datensätzen wie dem Brain Tumor Detection Dataset, würde an einem völlig neuen Satz von Patientenbildern aus anderen Krankenhäusern oder Scannern als den für Training und Validierung verwendeten getestet werden. Dadurch wird die diagnostische Genauigkeit vor dem potenziellen klinischen Einsatz bestätigt, wie im Abschnitt über die Rolle der KI in der klinischen Forschung erläutert.

Bewertung der Leistung anhand von Testdaten

Die Leistung auf der Testmenge wird in der Regel anhand von Metriken gemessen, die für die Aufgabe relevant sind, wie z. B. Genauigkeit, Präzision, Wiedererkennungswert, F1-Score oder mittlere durchschnittliche Präzision (mAP) für die Objekterkennung. Diese Metriken, die anhand der ungesehenen Testdaten berechnet werden, liefern die realistischste Einschätzung der Leistung des Modells in der Produktion. Mehr über diese Metriken erfährst du in unserem Leitfaden zu denYOLO . Plattformen wie Ultralytics HUB erleichtern die Verfolgung dieser Metriken während der Evaluierungsphase. Die Best Practices für Modelltests betonen die Bedeutung dieses letzten Bewertungsschritts.

Alles lesen