Entdecke, wie Semi-Supervised Learning gelabelte und nicht gelabelte Daten kombiniert, um KI-Modelle zu verbessern, die Labeling-Kosten zu senken und die Genauigkeit zu erhöhen.
Semi-Überwachtes Lernen (Semi-Supervised Learning, SSL) ist ein leistungsfähiger Mittelweg im maschinellen Lernen (ML), bei dem eine kleine Menge an gekennzeichneten Daten mit einer großen Menge an nicht gekennzeichneten Daten während des Trainings kombiniert wird. Dieser Ansatz ist besonders wertvoll in Szenarien, in denen die Beschaffung von gekennzeichneten Daten teuer, zeitaufwändig oder unpraktisch ist, während unbeschriftete Daten im Überfluss vorhanden sind. SSL zielt darauf ab, die zugrundeliegende Struktur in den unmarkierten Daten zu nutzen, um die Leistung des Modells über das hinaus zu verbessern, was nur mit den begrenzten markierten Daten erreicht werden könnte, was es zu einer praktischen Technik für viele reale Probleme der Künstlichen Intelligenz (KI) macht.
SSL-Algorithmen funktionieren, indem sie bestimmte Annahmen über die Beziehung zwischen den beschrifteten und den unbeschrifteten Daten treffen. Zu den gängigen Annahmen gehören die "Glattheitsannahme" (nahe beieinander liegende Punkte teilen wahrscheinlich ein Label) oder die "Clusterannahme" (Daten neigen dazu, verschiedene Cluster zu bilden, und Punkte innerhalb desselben Clusters teilen wahrscheinlich ein Label). Häufig wird ein erstes Modell auf den beschrifteten Daten trainiert und dann verwendet, um Pseudo-Beschriftungen für die nicht beschrifteten Daten auf der Grundlage von Vorhersagen mit hoher Zuverlässigkeit zu erstellen. Das Modell wird dann sowohl auf den ursprünglichen beschrifteten Daten als auch auf den neu pseudo-beschrifteten Daten neu trainiert. Ein anderer Ansatz ist die Konsistenzregulierung, bei der das Modell dazu angehalten wird, für ein unbeschriftetes Beispiel die gleiche Ausgabe zu liefern, auch wenn die Eingabe leicht gestört ist. Diese Methoden ermöglichen es dem Modell, aus den Mustern und der Verteilung zu lernen, die in dem großen Pool von unbeschrifteten Beispielen enthalten sind. Fortgeschrittenere Techniken werden in Ressourcen wie den Google AI Blog-Beiträgen zu SSL erforscht.
Semi-Supervised Learning nimmt einen einzigartigen Platz zwischen anderen primären Lerntypen ein:
SSL ist sehr effektiv in Bereichen, in denen die Kennzeichnung ein Engpass ist:
Der Hauptvorteil von SSL besteht darin, dass es die Abhängigkeit von großen beschrifteten Datensätzen verringert und damit Zeit und Ressourcen spart, die mit der Datenbeschriftung verbunden sind. Im Vergleich zu rein überwachten Modellen, die auf begrenzten Daten trainiert wurden, führt SSL oft zu einer besseren Modellgeneralisierung, indem Informationen aus nicht beschrifteten Stichproben genutzt werden. Der Erfolg von SSL hängt jedoch stark davon ab, dass die zugrunde liegenden Annahmen über die Daten korrekt sind. Wenn diese Annahmen nicht zutreffen (z. B. wenn sich die Verteilung der unmarkierten Daten stark von der der markierten Daten unterscheidet), können SSL-Methoden die Leistung sogar verschlechtern. Die sorgfältige Auswahl und Umsetzung von SSL-Techniken ist entscheidend und erfordert oft Fachwissen über MLOps-Praktiken.
Viele moderne Deep Learning (DL) -Frameworks, darunter PyTorchPyTorch offizielle Seite) und TensorFlowTensorFlow official site), bieten Funktionen oder können angepasst werden, um SSL-Algorithmen zu implementieren. Bibliotheken wie Scikit-learn bieten einige SSL-Methoden. Plattformen wie Ultralytics HUB rationalisieren den Prozess, indem sie die Verwaltung von DatensätzenUltralytics HUB Datasets documentation) erleichtern, die eine Mischung aus beschrifteten und unbeschrifteten Daten enthalten können, und das TrainingUltralytics HUB Cloud Training) und den Einsatz(model deployment options guide) von Modellen vereinfachen, die für die Nutzung solcher Datenstrukturen entwickelt wurden. Die Forschung im Bereich SSL entwickelt sich ständig weiter und Beiträge werden häufig auf großen KI-Konferenzen wie NeurIPS und ICML präsentiert.