Im Bereich des maschinellen Lernens (ML) ist es für eine optimale Modellleistung erforderlich, ein Gleichgewicht zwischen Einfachheit und Komplexität zu finden. Underfitting ist ein häufiges Problem, wenn ein Modell zu simpel ist, um die zugrunde liegenden Muster in den Trainingsdaten zu erfassen. Das bedeutet, dass das Modell nicht effektiv lernt, was zu einer schlechten Leistung führt, und zwar nicht nur bei den Daten, mit denen es trainiert wurde, sondern auch bei neuen, ungesehenen Daten. Ein unzureichend angepasstes Modell ist nicht in der Lage, die Beziehungen innerhalb der Daten genau darzustellen.
Was sind die Ursachen für Underfitting?
Mehrere Faktoren können zu einem unzureichend angepassten Modell führen:
- Unzureichende Modellkomplexität: Die gewählte Modellarchitektur könnte für die Aufgabe zu einfach sein. Zum Beispiel ein lineares Modell für komplexe, nicht lineare Daten oder ein neuronales Netzwerk mit zu wenigen Schichten oder Neuronen. Das Verständnis der Modellkomplexität ist entscheidend.
- Unzureichende Merkmale: Die dem Modell zur Verfügung gestellten Eingangsmerkmale enthalten möglicherweise nicht genügend relevante Informationen, um genaue Vorhersagen zu treffen. Um dies zu verhindern, ist ein effektives Feature Engineering entscheidend.
- Unzureichendes Training: Das Modell wurde möglicherweise nicht genügend Epochen lang trainiert, d.h. es hatte nicht genügend Gelegenheit, die Muster in den Trainingsdaten zu lernen.
- Überregulierung: Regularisierungstechniken werden eingesetzt, um ein Overfitting zu verhindern, aber wenn sie zu aggressiv eingesetzt werden, kann das Modell zu stark eingeschränkt werden, was seine Fähigkeit, die Datenmuster zu lernen, beeinträchtigt und zu einem Underfitting führt.
Identifizierung von Underfitting
Die Unteranpassung wird in der Regel durch die Bewertung der Leistung des Modells während und nach dem Training diagnostiziert:
- Hoher Trainingsfehler: Das Modell schneidet selbst bei den Daten, auf denen es trainiert wurde, schlecht ab. Leistungskennzahlen wie Genauigkeit, Präzision oder Wiedererkennung sind niedrig, während der Wert der Verlustfunktion hoch bleibt.
- Hoher Validierungsfehler: Das Modell schneidet auch bei den Validierungsdaten schlecht ab, was bedeutet, dass es die allgemeinen Muster nicht gelernt hat.
- Lernkurven: Wenn du die Fehler des Modells in den Trainings- und Validierungssets im Laufe der Zeit aufzeichnest(Lernkurven), kannst du feststellen, dass das Modell nicht richtig passt, wenn beide Kurven auf einem hohen Fehlerniveau liegen. Für spezielle Aufgaben wie die Objekterkennung kannst du in den Leitfäden zu den YOLO nachlesen.
Abhilfe bei Unteranpassung
Es gibt mehrere Strategien, die helfen können, die Unteranpassung zu überwinden:
Beispiele aus der realen Welt für Underfitting
- Vorhersage von Hauspreisen mit begrenzten Merkmalen: Stell dir vor, du versuchst, die Hauspreise nur anhand der Anzahl der Schlafzimmer vorherzusagen. Dieses einfache Modell (mit wenigen Merkmalen) wäre wahrscheinlich unzureichend, weil es wichtige Faktoren wie Lage, Quadratmeterzahl und Alter ignoriert und die wahre Komplexität des Wohnungsmarktes nicht erfasst.
- Einfacher Bildklassifikator für komplexe Szenen: Training eines sehr einfachen neuronalen Faltungsnetzwerks (CNN) mit nur ein oder zwei Faltungsschichten für eine komplexe Bildklassifizierungsaufgabe, z. B. die Identifizierung verschiedener Vogelarten in unterschiedlichen Umgebungen. Das Modell könnte die komplizierten Merkmale, die die verschiedenen Arten unterscheiden, nicht lernen, was zu einer schlechten Leistung sowohl bei bekannten als auch bei neuen Bildern führt.
Underfitting vs. Overfitting
Underfitting ist das Gegenteil von Overfitting. Ein unterangepasstes Modell ist zu einfach und kann den zugrunde liegenden Trend der Daten nicht erfassen, was zu einer hohen Verzerrung führt. Ein überangepasstes Modell ist zu komplex; es lernt die Trainingsdaten zu gut, einschließlich des Rauschens und der Ausreißer, was zu einer hohen Varianz und schlechter Leistung bei neuen Daten führt. Das Ziel beim maschinellen Lernen ist es, ein Gleichgewicht zwischen diesen beiden Extremen zu finden und eine gute Generalisierung zu erreichen. Dieses Gleichgewicht wird oft mit dem Begriff " Bias-Varianz-Kompromiss" beschrieben. Techniken wie die Kreuzvalidierung (siehe Ultralytics K-Fold-Leitfaden) und die sorgfältige Abstimmung der Hyperparameter (siehe Ultralytics Tuning-Leitfaden) sind entscheidend, um dieses optimale Gleichgewicht zu finden. Plattformen wie Ultralytics HUB können dabei helfen, Experimente zu verwalten und die Modellleistung zu verfolgen, um sowohl Underfitting als auch Overfitting zu erkennen und zu verringern.