Glossar

Selbstüberwachtes Lernen

Entdecken Sie, wie selbstüberwachtes Lernen unbeschriftete Daten für effizientes Training nutzt und damit die KI in den Bereichen Computer Vision, NLP und anderen Bereichen verändert.

Selbstüberwachtes Lernen (Self-Supervised Learning, SSL) ist eine Technik des maschinellen Lernens, die es Modellen ermöglicht, aus riesigen Mengen von nicht beschrifteten Daten zu lernen. Anstatt sich auf vom Menschen bereitgestellte Beschriftungen zu verlassen, erzeugt SSL automatisch Beschriftungen aus den Daten selbst, indem es eine "Vorwandaufgabe" erstellt und löst. Dieser Prozess zwingt das Modell dazu, sinnvolle zugrundeliegende Muster und Merkmale der Daten zu erlernen, z. B. Texturen und Formen in Bildern oder grammatikalische Strukturen in Texten. Diese erlernten Merkmale bilden eine leistungsstarke Grundlage, die es dem Modell ermöglicht, in der Feinabstimmungsphase bei nachgelagerten Aufgaben mit viel weniger gelabelten Daten außerordentlich gut abzuschneiden. SSL schließt die Lücke zwischen vollständig überwachtem Lernen, das sehr datenintensiv ist, und rein unüberwachtem Lernen, das weniger zielgerichtet sein kann.

Wie selbstüberwachtes Lernen funktioniert

Die Kernidee hinter SSL ist die Vorwandaufgabe - ein selbst erstelltes Problem, das das Modell lösen muss. Die Bezeichnungen für diese Aufgabe werden direkt aus den Eingabedaten abgeleitet. Durch das Lösen der Pretext-Aufgabe lernt das neuronale Netzwerk wertvolle Repräsentationen oder Einbettungen, die die wesentlichen Merkmale der Daten erfassen.

Zu den üblichen Vorwandaufgaben im Bereich der Computer Vision gehören:

  • Vorhersage der Bilddrehung: Dem Modell wird ein Bild gezeigt, das zufällig gedreht wurde (z. B. um 0, 90, 180 oder 270 Grad), und es muss den Drehwinkel vorhersagen. Um dies korrekt zu tun, muss es die ursprüngliche Ausrichtung des Objekts erkennen.
  • Bildübermalung: Ein Teil eines Bildes wird maskiert oder entfernt, und das Modell muss den fehlenden Bereich vorhersagen. Dadurch lernt das Modell etwas über den Kontext und die Textur von Bildern.
  • Kontrastives Lernen: Dem Modell wird beigebracht, Darstellungen ähnlicher (erweiterter) Bilder näher aneinander zu ziehen und Darstellungen unterschiedlicher Bilder weiter auseinander zu schieben. Frameworks wie SimCLR sind beliebte Beispiele für diesen Ansatz.

Dieses Vortraining auf nicht beschrifteten Daten führt zu robusten Modellgewichten, die als Ausgangspunkt für spezifischere Aufgaben verwendet werden können.

SSL vs. andere Lernparadigmen

Es ist wichtig, SSL von verwandten Paradigmen des maschinellen Lernens zu unterscheiden:

  • Überwachtes Lernen: Verlässt sich vollständig auf beschriftete Daten, wobei jede Eingabe mit einer korrekten Ausgabe gepaart wird. SSL hingegen generiert seine eigenen Beschriftungen aus den Daten selbst, wodurch der Bedarf an manueller Datenbeschriftung erheblich reduziert wird.
  • Unüberwachtes Lernen: Ziel ist die Suche nach Mustern (z. B. Clustering) oder die Verringerung der Dimensionalität in unbeschrifteten Daten ohne vordefinierte Vorgabeaufgaben. SSL verwendet zwar wie das unüberwachte Lernen unmarkierte Daten, unterscheidet sich aber dadurch, dass es explizite Überwachungssignale durch Vorgabe von Aufgaben zur Steuerung des Repräsentationslernens erzeugt.
  • Semi-überwachtes Lernen: Verwendet eine Kombination aus einer kleinen Menge von gekennzeichneten Daten und einer großen Menge von nicht gekennzeichneten Daten. SSL-Pre-Training kann oft ein vorbereitender Schritt vor der semi-supervised Feinabstimmung sein.
  • Aktives Lernen: Konzentriert sich auf die intelligente Auswahl der informativsten Datenpunkte aus einem unbeschrifteten Pool, die von einem Menschen beschriftet werden sollen. SSL lernt aus allen unmarkierten Daten, ohne dass der Mensch eingreift. Diese beiden Methoden können sich in einem datenzentrierten KI-Workflow ergänzen.

Anwendungen in der realen Welt

SSL hat die Fähigkeiten der Künstlichen Intelligenz (KI) in verschiedenen Bereichen erheblich verbessert:

  1. Fortschrittliche Computer Vision Modelle: Das SSL-Vortraining ermöglicht es Modellen wie Ultralytics YOLO, robuste visuelle Merkmale aus riesigen unbeschrifteten Bilddatensätzen zu lernen, bevor sie für Aufgaben wie die Objekterkennung in autonomen Fahrzeugen oder die medizinische Bildanalyse feinabgestimmt werden. Die Verwendung von vortrainierten Gewichten, die von SSL abgeleitet wurden, führt oft zu einer besseren Leistung und schnelleren Konvergenz während der Modellschulung.
  2. Leistung großer Sprachmodelle (LLMs): Basismodelle wie GPT-4 und BERT stützen sich während ihrer Pre-Trainingsphase auf umfangreiche Textkorpora auf SSL-Pretext-Aufgaben (wie Masked Language Modeling). Dies ermöglicht es ihnen, Sprachstruktur, Grammatik und Kontext zu verstehen und Anwendungen von hochentwickelten Chatbots und maschineller Übersetzung bis hin zur Textzusammenfassung zu betreiben.

SSL reduziert die Abhängigkeit von teuren markierten Datensätzen erheblich und demokratisiert die Entwicklung leistungsstarker KI-Modelle. Tools wie PyTorch und TensorFlow sowie Plattformen wie Ultralytics HUB bieten Umgebungen zur Nutzung von SSL-Techniken für die Entwicklung und den Einsatz innovativer KI-Lösungen. Die neuesten Forschungsergebnisse zu SSL finden Sie auf führenden KI-Konferenzen wie NeurIPS und ICML.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert