Glossar

Semi-überwachtes Lernen

Entdecke, wie Semi-Supervised Learning gelabelte und nicht gelabelte Daten kombiniert, um KI-Modelle zu verbessern, die Labeling-Kosten zu senken und die Genauigkeit zu erhöhen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Semi-Supervised Learning (SSL) ist eine Technik des maschinellen Lernens (ML), die zwischen überwachtem und unüberwachtem Lernen liegt. Es nutzt eine Kombination aus einer kleinen Menge beschrifteter Daten und einer großen Menge unbeschrifteter Daten, um Modelle zu trainieren. Die Hauptmotivation hinter SSL sind die hohen Kosten und der Aufwand, die oft mit der Kennzeichnung von Daten verbunden sind, insbesondere in komplexen Bereichen. Durch die Nutzung leicht verfügbarer unmarkierter Daten zielt SSL darauf ab, die Modellleistung und Generalisierung über das hinaus zu verbessern, was mit den begrenzten markierten Daten erreicht werden könnte.

Wie Semi-Supervised Learning funktioniert

Das Kernprinzip des Semi-Supervised Learning ist, dass die unmarkierten Daten trotz fehlender expliziter Markierungen wertvolle Informationen über die zugrunde liegende Struktur und Verteilung der Daten enthalten. SSL-Algorithmen versuchen, diese Struktur auszunutzen, um den Lernprozess zu verbessern. Bei den gängigen Ansätzen werden oft Annahmen über die Daten getroffen, wie z. B. die "Cluster-Annahme" (Punkte im selben Cluster haben wahrscheinlich dasselbe Label) oder die "Mannigfaltigkeits-Annahme" (Datenpunkte liegen auf einer niederdimensionalen Mannigfaltigkeit).

Zu den Techniken, die in SSL verwendet werden, gehören Methoden wie das Pseudo-Labeling, bei dem ein Modell, das auf den ursprünglich gelabelten Daten trainiert wurde, verwendet wird, um die Label für die nicht gelabelten Daten vorherzusagen. Vorhersagen mit hoher Konfidenz werden dann als "Pseudo-Labels" behandelt und der Trainingsmenge hinzugefügt. Ein anderer Ansatz ist die Konsistenzregulierung, die das Modell dazu anregt, ähnliche Ergebnisse für gestörte Versionen desselben unmarkierten Inputs zu produzieren. Diese Methoden helfen dem Modell, robustere Merkmale zu erlernen, indem es den großen unbeschrifteten Datensatz nutzt. Eine gute SSL-Übersicht findest du auf Towards Data Science.

Anwendungen und Beispiele

Semi-Supervised Learning ist besonders nützlich in Szenarien, in denen die Beschaffung von gelabelten Daten ein Engpass ist. Einige wichtige Anwendungsbereiche sind:

  • Bildklassifizierung: Training eines Modells zur Klassifizierung von Bildern (z. B. mithilfe von Datensätzen wie CIFAR-10), bei denen nur ein kleiner Teil der Bilder manuell beschriftet wird, aber Millionen von unbeschrifteten Bildern im Internet verfügbar sind.
  • Medizinische Bildanalyse: Verbesserung von Diagnosemodellen durch Training mit einigen wenigen von Experten kommentierten medizinischen Scans neben einem größeren Pool von unkommentierten Scans. Dies kann Aufgaben wie die Tumorerkennung verbessern.
  • Klassifizierung von Webseiten: Kategorisierung von Webseiten anhand einer kleinen Anzahl von manuell klassifizierten Seiten und einer großen Anzahl von nicht kategorisierten Seiten aus dem Internet. Siehe ein frühes Forschungsbeispiel zur Klassifizierung von Webinhalten.
  • Spracherkennung: Aufbau von Systemen mit einer begrenzten Menge an transkribierten Audiodaten in Kombination mit großen Mengen an nicht transkribierter Sprache.
  • Natürliche Sprachverarbeitung (NLP): Verbesserung von Aufgaben wie Sentiment-Analyse oder Textklassifizierung durch die Nutzung großer unmarkierter Textkorpora neben kleineren gelabelten Datensätzen.

Unterscheidungen zu verwandten Konzepten

Es ist wichtig, Semi-Supervised Learning von verwandten ML-Paradigmen zu unterscheiden:

  • Überwachtes Lernen: Verlässt sich beim Training ausschließlich auf vollständig beschriftete Daten. SSL verwendet sowohl gelabelte als auch nicht gelabelte Daten.
  • Unüberwachtes Lernen: Verwendet nur unmarkierte Daten, typischerweise für Aufgaben wie Clustering oder Dimensionalitätsreduktion, ohne vordefinierte Markierungen vorherzusagen. SSL nutzt unmarkierte Daten, um eine überwachte Aufgabe zu verbessern.
  • Selbst-überwachtes Lernen: Verwendet ebenfalls unmarkierte Daten, erzeugt aber Überwachungssignale aus den Daten selbst (z. B. Vorhersage eines maskierten Wortes, Einfärben eines Bildes). Es wird oft für das Vortraining von Modellen verwendet, die dann mit gekennzeichneten Daten verfeinert werden, während SSL in der Regel beide Datentypen während der Haupttrainingsphase einbezieht.

Vorteile von Semi-Supervised Learning

  • Geringere Kosten für die Kennzeichnung: Der Bedarf an teuren und zeitaufwändigen manuellen Datenkommentaren wird deutlich gesenkt.
  • Verbesserte Genauigkeit: Kann zu einer höheren Modellgenauigkeit führen, als wenn nur auf kleinen gelabelten Datensätzen trainiert wird, indem Informationen aus nicht gelabelten Daten genutzt werden.
  • Bessere Generalisierung: Mit SSL trainierte Modelle verallgemeinern oft besser auf neue, ungesehene Daten, indem sie die zugrunde liegenden Datenstrukturen lernen.
  • Nutzt eine Fülle von Daten: Macht effektiven Gebrauch von den riesigen Mengen an unbeschrifteten Daten, die in vielen realen Anwendungen verfügbar sind.

Semi-Supervised Learning ist ein praktischer und leistungsfähiger Ansatz für den Aufbau effektiver Systeme der Künstlichen Intelligenz (KI), insbesondere bei Computer-Vision-Aufgaben wie der Objekterkennung, bei denen es viele unmarkierte Bilder oder Videos gibt. Plattformen wie Ultralytics HUB erleichtern die Verwaltung von Datensätzen, die eine Mischung aus beschrifteten und unbeschrifteten Daten für Trainingsmodelle wie Ultralytics YOLO. Die Erkundung von SSL-Techniken kann für Projekte, bei denen die Verfügbarkeit von gekennzeichneten Daten eingeschränkt ist, von entscheidender Bedeutung sein, wie in Ressourcen wie den Google AI Blog-Beiträgen zu SSL hervorgehoben wird.

Alles lesen