Glossar

Underfitting

Lernen Sie anhand von Expertentipps, Strategien und Beispielen aus der Praxis, wie Sie Underfitting in Modellen für maschinelles Lernen erkennen, verhindern und beheben können.

Underfitting ist ein häufiges Problem beim maschinellen Lernen (ML), bei dem ein Modell zu einfach ist, um die zugrunde liegenden Muster in den Trainingsdaten zu erfassen. Diese Einfachheit hindert das Modell daran, die Beziehung zwischen den Eingabemerkmalen und der Zielvariablen zu erlernen, was zu einer schlechten Leistung sowohl bei den Daten, auf denen es trainiert wurde, als auch bei neuen, nicht gesehenen Daten führt. Ein unzureichend angepasstes Modell hat eine hohe Verzerrung, was bedeutet, dass es starke, oft falsche Annahmen über die Daten macht. Das Ergebnis ist ein Modell, das keine hohe Genauigkeit erreicht und nicht gut verallgemeinern kann.

Underfitting vs. Überanpassung

Unteranpassung und Überanpassung sind zwei zentrale Herausforderungen beim ML, die sich auf die Fähigkeit eines Modells beziehen, von Trainingsdaten auf neue Daten zu verallgemeinern. Sie stellen zwei Extreme auf dem Spektrum der Modellkomplexität dar.

  • Unteranpassung: Das Modell ist zu einfach und hat eine hohe Verzerrung. Es schafft es nicht, die zugrunde liegende Struktur der Daten zu erlernen, was zu einem hohen Verlustfunktionswert und einer schlechten Leistung sowohl in den Trainings- als auch in den Validierungsdatensätzen führt.
  • Überanpassung: Das Modell ist zu komplex und hat eine hohe Varianz. Es lernt die Trainingsdaten zu gut, einschließlich des Rauschens und der Zufallsschwankungen. Dies führt zu einer exzellenten Leistung bei den Trainingsdaten, aber zu einer schlechten Leistung bei ungesehenen Daten, da sich das Modell im Wesentlichen die Trainingsbeispiele gemerkt hat, anstatt allgemeine Muster zu lernen.

Das ultimative Ziel bei ML ist es, ein Gleichgewicht zwischen diesen beiden zu finden, ein Konzept, das als Bias-Varianz-Kompromiss bekannt ist, um ein Modell zu erstellen, das effektiv auf neue, reale Szenarien verallgemeinert. Die Analyse von Lernkurven ist eine gängige Methode, um festzustellen, ob ein Modell unter- oder überangepasst oder gut angepasst ist.

Ursachen und Lösungen für Underfitting

Das Erkennen und Beheben von Unteranpassungen ist für die Erstellung effektiver Modelle von entscheidender Bedeutung. Das Problem hat in der Regel einige gemeinsame Ursachen, für die es jeweils entsprechende Lösungen gibt.

  • Das Modell ist zu einfach: Die Verwendung eines linearen Modells für ein komplexes, nicht lineares Problem ist eine klassische Ursache für eine unzureichende Anpassung.
    • Lösung: Erhöhen Sie die Modellkomplexität. Dies könnte bedeuten, dass Sie zu einer leistungsfähigeren Modellarchitektur wechseln, z. B. zu einem tieferen neuronalen Netz oder einem größeren vortrainierten Modell, wie z. B. der Wechsel von einer kleineren zu einer größeren Ultralytics YOLO-Modellvariante. Sie können verschiedene YOLO-Modellvergleiche untersuchen, um eine geeignetere Architektur auszuwählen.
  • Unzureichende oder qualitativ minderwertige Merkmale: Wenn die dem Modell zur Verfügung gestellten Eingabemerkmale nicht genügend Informationen enthalten, um genaue Vorhersagen zu machen, passt sich das Modell nicht an.
  • Unzureichende Ausbildung: Das Modell ist möglicherweise nicht ausreichend trainiert worden Epochen um die Muster in den Daten zu erkennen.
  • Exzessive Regularisierung: Techniken wie L1- und L2-Regularisierung oder hoch Aussteiger Raten werden verwendet, um eine Überanpassung zu verhindern, aber wenn sie zu aggressiv sind, können sie das Modell zu sehr einschränken und eine Unteranpassung verursachen.
    • Lösung: Reduzieren Sie den Umfang der Regularisierung. Dies könnte bedeuten, dass der Strafterm in den Regularisierungsfunktionen verringert wird oder die Dropout-Rate reduziert wird. Die Einhaltung bewährter Verfahren für die Modellschulung kann helfen, das richtige Gleichgewicht zu finden.

Beispiele aus der Praxis für Underfitting

  1. Einfacher Bildklassifikator: Stellen Sie sich vor, Sie trainieren ein sehr einfaches Convolutional Neural Network (CNN) mit nur ein oder zwei Schichten für eine komplexe Bildklassifizierungsaufgabe, wie z. B. die Identifizierung von Tausenden von Objektkategorien im ImageNet-Datensatz. Die begrenzte Kapazität des Modells würde es daran hindern, die komplizierten Merkmale zu erlernen, die zur Unterscheidung zwischen so vielen Klassen erforderlich sind, was zu einer geringen Genauigkeit sowohl bei den Trainings- als auch bei den Testdaten führen würde. Frameworks wie PyTorch und TensorFlow bieten die Werkzeuge, um anspruchsvollere Architekturen zur Überwindung dieses Problems zu entwickeln.
  2. Grundlegende vorausschauende Wartung: Sie können ein einfaches lineares Regressionsmodell für die vorausschauende Modellierung verwenden, um allein anhand der Betriebstemperatur abzuschätzen, wann eine Maschine ausfallen wird. Wenn Maschinenausfälle tatsächlich durch ein komplexes, nicht lineares Zusammenspiel von Faktoren wie Vibration, Alter und Druck beeinflusst werden, ist das einfache lineare Modell unzureichend. Es kann die tatsächliche Komplexität des Systems nicht erfassen, was zu einer schlechten Vorhersageleistung und der Unfähigkeit führt, Ausfälle genau vorherzusehen. Ein komplexeres Modell, wie z. B. eine Gradient-Boosting-Maschine oder ein neuronales Netz, wäre besser geeignet.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert