Glossar

Überanpassung

Lerne, wie du Overfitting beim maschinellen Lernen erkennst, verhinderst und behebst. Entdecke Techniken zur Verbesserung der Modellgeneralisierung und der Leistung in der Praxis.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Beim maschinellen Lernen (ML) kommt es zu einer Überanpassung, wenn ein Modell die Trainingsdaten zu gut lernt und Rauschen und zufällige Schwankungen anstelle des zugrunde liegenden Musters erfasst. Dies führt zu einer ausgezeichneten Leistung auf dem Trainingsdatensatz, aber zu einer schlechten Generalisierung auf neue, ungesehene Daten. Im Grunde genommen wird das Modell zu komplex und speziell auf die Trainingsbeispiele zugeschnitten, so als würde es Antworten auswendig lernen, anstatt Konzepte zu verstehen. Das ist eine häufige Herausforderung beim Training von KI-Modellen, insbesondere bei komplexen Algorithmen wie den neuronalen Netzen, die in Ultralytics YOLO für Aufgaben wie Objekterkennung und Bildsegmentierung verwendet werden.

Overfitting verstehen

Eine Überanpassung entsteht, weil ML-Modelle darauf abzielen, Fehler in den Trainingsdaten zu minimieren. Wenn ein Modell übermäßig komplex ist (z. B. zu viele Parameter oder Schichten), kann es sich sogar an das zufällige Rauschen in den Trainingsdaten anpassen. Dieses Rauschen repräsentiert nicht die wahren, zugrunde liegenden Muster und es ist unwahrscheinlich, dass es in neuen Datensätzen vorhanden ist. Stell dir vor, du schneidest einen Anzug perfekt auf die exakten Maße einer Person an einem bestimmten Tag zu - wenn das Gewicht der Person leicht schwankt oder jemand anderes den Anzug anprobiert, passt er vielleicht nicht mehr. Bei ML führt diese "perfekte Passform" bei Trainingsdaten zu Unflexibilität und schlechter Leistung bei realen Daten, was oft als schlechte Generalisierung bezeichnet wird.

Das Gegenteil ist die Unteranpassung, bei der ein Modell zu einfach ist, um die zugrunde liegende Struktur der Daten zu erfassen. Ein unterangepasstes Modell schneidet sowohl bei den Trainingsdaten als auch bei den neuen Daten schlecht ab, weil es nicht genug gelernt hat. Das Ziel ist es, ein optimales Gleichgewicht zu finden, das oft im Zusammenhang mit dem Bias-Varianz-Kompromiss diskutiert wird, um ein Modell zu schaffen, das sich gut auf ungesehene Daten verallgemeinern lässt.

Beispiele für Overfitting in der realen Welt

  • Medizinische Bildanalyse: Bei der medizinischen Bildanalyse zur Erkennung von Krankheiten kann ein überangepasstes Modell außergewöhnlich gut darin werden, Krankheiten in dem speziellen Satz von Bildern zu erkennen, auf dem es trainiert wurde, indem es vielleicht einzigartige Artefakte oder Rauschen lernt, die nur in diesem Datensatz vorkommen (z. B. von einem bestimmten Scanner). Wenn neue medizinische Bilder von anderen Geräten, Patientengruppen oder Bildgebungsbedingungen vorgelegt werden, kann das Modell nicht verallgemeinert werden, was zu ungenauen Diagnosen im klinischen Umfeld führen kann. Ein Modell, das für die Erkennung von Tumoren anhand von MRT-Scans aus Krankenhaus A trainiert wurde, könnte sich beispielsweise zu sehr an die Eigenschaften des MRT-Scanners dieses Krankenhauses anpassen und bei Scans aus Krankenhaus B schlecht abschneiden, selbst wenn die zugrunde liegende Pathologie identisch ist.
  • Autonomes Fahren: Ein Objekterkennungsmodell für ein autonomes Fahrzeug, das zu sehr auf Daten bei Tag und klarem Wetter trainiert wurde, könnte sich zu sehr an diese Bedingungen anpassen. Es könnte Fußgänger und andere Fahrzeuge bei hellem Sonnenlicht gut erkennen, aber bei Nacht, Regen, Nebel oder Schnee erhebliche Probleme haben und Objekte aufgrund mangelnder Generalisierung auf diese unterschiedlichen visuellen Inputs nicht zuverlässig erkennen, was ein ernstes Sicherheitsrisiko darstellt.

Verhinderung von Overfitting

Verschiedene Techniken können dazu beitragen, die Überanpassung zu verringern und die Modellgeneralisierung zu verbessern:

  • Vereinfache das Modell: Die Verwendung einer weniger komplexen Modellarchitektur (weniger Schichten oder Parameter) kann verhindern, dass das Modell Rauschen anpasst. Techniken wie das Model Pruning können die Komplexität ebenfalls reduzieren.
  • Datenerweiterung: Die künstliche Vergrößerung und Vielfalt des Trainingsdatensatzes hilft dem Modell, robustere Merkmale zu lernen. Ultralytics YOLO umfassen Drehungen, Übersetzungen, Skalierungen und Farbverschiebungen.
  • Regularisierung: Die Hinzufügung von Strafen zur Verlustfunktion, die auf den Parametern des Modells basieren, verhindert, dass zu komplexe Modelle entstehen. Zu den gängigen Methoden gehören die L1- und L2-Regularisierung.
  • Frühzeitiges Anhalten: Überwachung der Leistung des Modells auf einem separaten Validierungsdatensatz während des Trainings und Anhalten des Prozesses, wenn die Validierungsleistung beginnt, sich zu verschlechtern, auch wenn sich die Trainingsleistung noch verbessert. Dadurch wird verhindert, dass das Modell zu viele Epochen lang mit den Trainingsdaten lernt.
  • Kreuzvalidierung: Techniken wie die K-Fold-Kreuzvalidierung liefern eine robustere Schätzung der Modellleistung bei ungesehenen Daten und helfen bei der Auswahl von Modellen, die besser generalisieren.
  • Dropout: Das zufällige Setzen eines Teils der Neuronenaktivierungen auf Null während des Trainings zwingt das Netzwerk dazu, mehr redundante Repräsentationen zu lernen und sich weniger auf bestimmte Neuronen zu verlassen. Hier wird das Dropout-Konzept erklärt.

Wenn Entwickler das Overfitting verstehen und angehen, können sie zuverlässigere und effektivere KI-Modelle entwickeln. Tools wie Ultralytics HUB können bei der Nachverfolgung von Experimenten und der Modellbewertung helfen und so die Überanpassung während des Lebenszyklus der Modellentwicklung aufdecken und abmildern.

Alles lesen