Glossar

Kreuzvalidierung

Entdecke die Macht der Kreuzvalidierung beim maschinellen Lernen! Erfahre, wie sie eine Überanpassung verhindert, die Genauigkeit sicherstellt und die Modellauswahl unterstützt.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Die Kreuzvalidierung ist ein statistisches Verfahren, das beim maschinellen Lernen und bei der künstlichen Intelligenz eingesetzt wird, um die Leistung eines Modells zu bewerten, indem es an Teilmengen von Daten getestet wird, die beim Training nicht verwendet wurden. Sie stellt sicher, dass das Modell auch auf neue, ungesehene Daten verallgemeinert werden kann und hilft, eine Überanpassung zu vermeiden. Durch die Aufteilung des Datensatzes in mehrere Teile oder "Foldings" wird das Modell systematisch an verschiedenen Teilen der Daten getestet, was ein robustes Maß für seine Effektivität darstellt.

Wie die Kreuzvalidierung funktioniert

Der Kerngedanke hinter der Kreuzvalidierung ist die mehrfache Aufteilung des Datensatzes in Trainings- und Testteilmengen. Das Modell wird auf einer Teilmenge trainiert und auf einer anderen getestet. Dabei wird der Datensatz rotierend durchlaufen, um sicherzustellen, dass jeder Datenpunkt mindestens einmal für Training und Validierung verwendet wird. Die am häufigsten verwendete Technik ist K-Fold Cross-Validationwobei der Datensatz unterteilt ist in K gleich große Falten:

  • Das Modell wird trainiert auf K-1 faltet und an der verbleibenden Falte getestet.
  • Dieser Vorgang wird wiederholt K und zwar jedes Mal mit einer anderen Falte als Testset.
  • Die Ergebnisse werden über alle Iterationen gemittelt, um eine endgültige Leistungskennzahl zu erhalten.

Weitere Varianten sind die Leave-One-Out Cross-Validation (LOOCV), bei der jeder Datenpunkt einmal als Testsatz verwendet wird, und die Stratified K-Fold Cross-Validation, bei der die Klassenverteilung über Foldings hinweg beibehalten wird, was sie ideal für unausgewogene Datensätze macht.

Vorteile der Kreuzvalidierung

Die Kreuzvalidierung bietet mehrere Vorteile bei der Modellbewertung:

  • Bessere Generalisierung: Durch das Testen mit ungesehenen Daten stellt die Kreuzvalidierung sicher, dass sich das Modell nicht zu stark an den Trainingsdatensatz anpasst.
  • Verlässliche Metriken: Die gemittelten Ergebnisse aus mehreren Faltungen liefern eine genauere und stabilere Einschätzung der Modellleistung.
  • Modellauswahl: Die Kreuzvalidierung hilft dabei, verschiedene Modelle oder Hyperparametereinstellungen zu vergleichen und das beste Modell auszuwählen.

Erfahre mehr über die Vermeidung von Overfitting und Generalisierung beim maschinellen Lernen auf der Glossar-Seite Overfitting.

Anwendungen in KI und ML

Die Kreuzvalidierung wird in vielen KI- und ML-Anwendungen eingesetzt, um sicherzustellen, dass die Modelle robust und zuverlässig sind:

1. Hyperparameter-Abstimmung

Die Kreuzvalidierung spielt eine entscheidende Rolle bei der Optimierung von Hyperparametern durch Techniken wie die Rastersuche oder die Zufallssuche. Durch die Evaluierung mehrerer Parameterkombinationen auf verschiedenen Foldings können Praktiker die beste Konfiguration ermitteln. Erfahre mehr über Hyperparameter-Tuning zur Verbesserung der Modellleistung.

2. Modellvergleich

Bei der Auswahl zwischen verschiedenen Algorithmen wie Support Vector Machines (SVMs) oder Random Forests sorgt die Kreuzvalidierung für einen fairen Vergleich, indem jedes Modell unter identischen Bedingungen bewertet wird. Erfahre mehr über Random Forest und Support Vector Machines (SVM).

3. Anwendungen in der realen Welt

  • Gesundheitswesen: In der medizinischen Bildanalyse stellt die Kreuzvalidierung sicher, dass Diagnosemodelle, die z. B. Hirntumore erkennen, über verschiedene Patientendatensätze hinweg gut verallgemeinert werden können. Erforsche die Auswirkungen von KI im Gesundheitswesen mit KI im Gesundheitswesen.
  • Einzelhandel: In der Nachfrageprognose des Einzelhandels hilft die Kreuzvalidierung den Modellen, zukünftige Verkäufe genauer vorherzusagen, indem sie historische Datensätze zur Validierung verwenden. Erfahre in AI for Smarter Retail Inventory Management, wie KI den Einzelhandel verändert.

Kreuzvalidierung im Vergleich zu verwandten Konzepten

Kreuzvalidierung vs. Validierungsdaten

Während die Kreuzvalidierung eine dynamische Partitionierung des Datensatzes beinhaltet, beziehen sich die Validierungsdaten auf eine feste Teilmenge, die für die Leistungsbewertung während des Trainings reserviert ist. Mehr dazu erfährst du auf der Glossar-Seite Validierungsdaten.

Kreuzvalidierung vs. Testdaten

Testdaten werden für die endgültige Bewertung nach dem Training und der Validierung des Modells verwendet, während bei der Kreuzvalidierung die Trainingsdaten für die Zwischenbewertung in mehrere Teilmengen aufgeteilt werden. Weitere Informationen findest du auf der Seite Testdaten-Glossar.

Kreuzvalidierung vs. Overfitting-Prävention

Die Kreuzvalidierung ist eine wichtige Strategie, um eine Überanpassung zu erkennen und zu verringern. Techniken wie Dropout-Schichten oder Regularisierung sind zwar auch hilfreich, aber die Kreuzvalidierung liefert empirische Beweise für die Modellleistung. Mehr dazu findest du auf der Glossar-Seite Regularisierung.

Schlussfolgerung

Die Kreuzvalidierung ist ein unverzichtbares Werkzeug beim maschinellen Lernen, um sicherzustellen, dass die Modelle sowohl genau als auch verallgemeinerbar sind. Durch rigoroses Testen mit ungesehenen Daten und die Durchschnittsbildung der Ergebnisse liefert sie zuverlässige Leistungskennzahlen, die bei der Modellauswahl und -optimierung helfen. Eine praktische Umsetzung der Kreuzvalidierung bei der Objekterkennung findest du unter K-Fold Cross-Validation for Object Detection mit Ultralytics YOLO auf Ultralytics HUB.

Um mit KI-Projekten oder Modelltraining zu beginnen, besuche Ultralytics HUB für intuitive Tools und Ressourcen.

Alles lesen