Glossar

Test Daten

Entdecken Sie die Bedeutung von Testdaten in der KI, ihre Rolle bei der Bewertung der Modellleistung, der Erkennung von Überanpassungen und der Gewährleistung der Zuverlässigkeit in der Praxis.

Beim maschinellen Lernen sind Testdaten ein separater, unabhängiger Teil eines Datensatzes, der für die abschließende Bewertung eines Modells verwendet wird, nachdem es vollständig trainiert und abgestimmt wurde. Dieser Datensatz dient als "Abschlussprüfung" für das Modell und liefert eine unvoreingenommene Bewertung seiner Leistung bei neuen, ungesehenen Daten. Das Kernprinzip besteht darin, dass das Modell während seiner Entwicklung niemals von den Testdaten lernen oder von ihnen beeinflusst werden darf. Durch diese strikte Trennung wird sichergestellt, dass die auf dem Testdatensatz berechneten Leistungskennzahlen, wie z. B. die Genauigkeit oder die mittlere durchschnittliche Präzision (mAP), die Fähigkeit des Modells zur Verallgemeinerung auf reale Szenarien korrekt wiedergeben. Rigorose Modelltests sind ein entscheidender Schritt vor dem Einsatz des Modells.

Die Rolle von Testdaten im ML-Lebenszyklus

In einem typischen Projekt des maschinellen Lernens (ML) werden die Daten sorgfältig aufgeteilt, um verschiedenen Zwecken zu dienen. Das Verständnis der Unterscheidung zwischen diesen Partitionen ist von grundlegender Bedeutung.

  • Trainingsdaten: Dies ist die größte Teilmenge der Daten, die zum Lernen des Modells verwendet wird. Das Modell lernt iterativ Muster, Merkmale und Beziehungen, indem es seine internen Gewichte auf der Grundlage der Beispiele im Trainingssatz anpasst. Eine effektive Modellerstellung hängt von qualitativ hochwertigen Trainingsdaten und der Einhaltung von Best Practices ab, wie sie in diesem Leitfaden zur Modellschulung beschrieben sind.
  • Validierungsdaten: Dies ist ein separater Datensatz, der während des Trainingsprozesses verwendet wird. Ihr Zweck ist es, Rückmeldungen über die Leistung des Modells bei ungesehenen Daten zu geben, was bei der Abstimmung der Hyperparameter (z. B. Anpassung der Lernrate) hilft und eine Überanpassung verhindert. Es handelt sich um eine Art Praxistest, der als Leitfaden für die Lernstrategie dient. Die Bewertung wird häufig mit einem speziellen Validierungsmodus durchgeführt.
  • Testdaten: Dieser Datensatz wird vollständig isoliert aufbewahrt, bis das Training und die Validierung abgeschlossen sind. Er wird nur einmal verwendet, um einen endgültigen, unvoreingenommenen Bericht über die Leistung des Modells zu erstellen. Die Verwendung der Testdaten, um weitere Anpassungen am Modell vorzunehmen, würde die Ergebnisse ungültig machen, ein Fehler, der manchmal als "Datenleck" oder "Teaching to the Test" bezeichnet wird. Diese abschließende Bewertung ist wichtig, um zu verstehen, wie ein Modell wie das Ultralytics YOLO-Modell nach der Bereitstellung abschneiden wird. Tools wie Ultralytics HUB können bei der Verwaltung dieser Datensätze während des gesamten Projektlebenszyklus helfen.

Ein Benchmark-Datensatz kann zwar als Testsatz dienen, seine Hauptaufgabe besteht jedoch darin, als öffentlicher Standard für den Vergleich verschiedener Modelle zu dienen, der häufig bei akademischen Herausforderungen wie der ImageNet Large Scale Visual Recognition Challenge (ILSVRC) verwendet wird. Beispiele hierfür finden Sie auf den Modellvergleichsseiten.

Anwendungen in der realen Welt

  1. KI in der Automobilindustrie: Ein Entwickler erstellt ein Objekterkennungsmodell für ein autonomes Fahrzeug und verwendet dazu Tausende von Stunden an Fahrmaterial für Training und Validierung. Bevor dieses Modell in einer Flotte eingesetzt wird, wird es anhand eines Testdatensatzes bewertet. Dieser Testdatensatz enthält schwierige, bisher unbekannte Szenarien wie Nachtfahrten bei starkem Regen, Navigation durch einen Schneesturm oder die Erkennung von Fußgängern, die teilweise durch andere Objekte verdeckt sind. Anhand der Leistung des Modells in diesem Testsatz, für den häufig Daten aus Benchmarks wie nuScenes herangezogen werden, wird ermittelt, ob es die strengen Sicherheits- und Zuverlässigkeitsstandards erfüllt, die für KI-Anwendungen im Automobilbereich erforderlich sind.
  2. Medizinische Bildanalyse: Ein Computer-Vision-Modell (CV) wird trainiert, um Anzeichen einer Lungenentzündung auf Röntgenbildern aus einem Krankenhaus zu erkennen. Um sicherzustellen, dass es klinisch nützlich ist, muss das Modell an einem Datensatz von Bildern aus einem anderen Krankenhaussystem getestet werden. Diese Testdaten würden Bilder umfassen, die mit unterschiedlichen Geräten aufgenommen wurden, von verschiedenen Patienten stammen und von unterschiedlichen Radiologen interpretiert wurden. Die Bewertung der Leistung des Modells anhand dieses externen Testdatensatzes ist entscheidend für die behördliche Zulassung, z. B. durch die FDA, und für die Bestätigung seines Nutzens für die KI im Gesundheitswesen. Dieser Prozess hilft sicherzustellen, dass das Modell keine Verzerrungen des Datensatzes aufweist und in neuen klinischen Umgebungen zuverlässig funktioniert.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert