Glossar

Selbstüberwachtes Lernen

Entdecke, wie selbstüberwachtes Lernen unmarkierte Daten für ein effizientes Training nutzt und damit die KI in den Bereichen Computer Vision, NLP und mehr verändert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Selbstüberwachtes Lernen (Self-Supervised Learning, SSL) ist ein Ansatz des maschinellen Lernens (ML), der es Modellen ermöglicht, aus riesigen Mengen an unmarkierten Daten zu lernen. Im Gegensatz zum überwachten Lernen, das in hohem Maße von sorgfältig beschrifteten Daten abhängt, erzeugt SSL auf geniale Weise seine eigenen Überwachungssignale direkt aus den Eingabedaten selbst. Das macht es besonders wertvoll in Bereichen wie Computer Vision (CV) und Natural Language Processing (NLP), in denen unmarkierte Daten im Überfluss vorhanden sind, aber die Kosten und der Aufwand für die manuelle Markierung(Datenannotation) unerschwinglich sein können.

Wie selbstüberwachtes Lernen funktioniert

Der Kernmechanismus hinter SSL besteht darin, eine "Vorwandaufgabe" zu entwerfen. Dabei handelt es sich um eine zusätzliche, selbst erstellte Aufgabe, bei der das Modell bestimmte Eigenschaften der Daten vorhersagen muss, die absichtlich verborgen oder verändert wurden. Durch das Lösen dieser Vorwandaufgabe ist das Modell gezwungen, sinnvolle Strukturen und Repräsentationen(Einbettungen) der Daten zu lernen, ohne dass der Mensch sie beschriftet. Diese erste Trainingsphase wird gemeinhin als Pre-Training bezeichnet.

In der Computer Vision könnte eine Vorwandaufgabe zum Beispiel lauten:

  • Vorhersage der relativen Position von gemischten Bildfeldern.
  • Ein Graustufenbild einfärben.
  • Füllen von fehlenden Teilen eines Bildes (Inpainting).
  • Lernen von Repräsentationen durch die Gegenüberstellung verschiedener augmentierter Ansichten desselben Bildes, eine Technik, die in kontrastiven Lernmethoden wie SimCLR und MoCo verwendet wird.

Im NLP ist eine bekannte Vorhersageaufgabe die maskierte Sprachmodellierung, die von Modellen wie BERT verwendet wird. Dabei lernt das Modell, Wörter vorherzusagen, die in Sätzen zufällig maskiert (versteckt) wurden.

Nach dem Vortraining auf großen, nicht beschrifteten Datensätzen erfasst das Modell umfangreiche Merkmalsrepräsentationen. Dieses vortrainierte Modell kann dann für bestimmte nachgelagerte Aufgaben - wie Objekterkennung, Bildklassifizierung oder Stimmungsanalyse - durcheinen Prozess namens Feinabstimmung angepasst werden. Für die Feinabstimmung ist in der Regel eine viel geringere Menge an gekennzeichneten Daten erforderlich, als wenn ein Modell von Grund auf trainiert wird.

SSL vs. andere Lernparadigmen

Es ist wichtig, SSL von verwandten ML-Paradigmen zu unterscheiden:

  • Überwachtes Lernen: Verlässt sich vollständig auf beschriftete Daten, bei denen jede Eingabe mit einer korrekten Ausgabe gepaart ist. SSL hingegen generiert seine Labels aus den Daten selbst.
  • Unüberwachtes Lernen: Ziel ist es, in unmarkierten Daten ohne vordefinierte Aufgaben Muster zu finden (z. B. Clustering) oder die Dimensionalität zu reduzieren. SSL verwendet zwar wie das unüberwachte Lernen unmarkierte Daten, unterscheidet sich aber dadurch, dass es explizite Überwachungssignale durch Vorgabe von Aufgaben erzeugt, um das Lernen von Repräsentationen zu steuern.
  • Semi-Supervised Learning: Verwendet eine Kombination aus einer kleinen Menge von gekennzeichneten Daten und einer großen Menge von nicht gekennzeichneten Daten. Das SSL-Pre-Training kann oft ein erster Schritt vor der semi-supervised Feinabstimmung sein.

Anwendungen in der realen Welt

SSL hat die Fähigkeiten der Künstlichen Intelligenz (KI) deutlich verbessert:

  1. Fortschrittliche Computer Vision Modelle: SSL Pre-Training ermöglicht Modelle wie Ultralytics YOLO11 robuste visuelle Merkmale aus riesigen unbeschrifteten Bilddatensätzen lernen, bevor sie für Aufgaben wie die Objekterkennung in autonomen Fahrzeugen oder die medizinische Bildanalyse feinabgestimmt werden. Die Verwendung von vortrainierten Gewichten, die aus SSL abgeleitet wurden, führt oft zu einer besseren Leistung und schnelleren Konvergenz beim Modelltraining.
  2. Große Sprachmodelle (LLMs) antreiben: Basismodelle wie GPT-4 und BERT stützen sich in ihrer Pre-Trainingsphase auf umfangreiche Textkorpora mit SSL-Pretext-Aufgaben (wie Masked Language Modeling). Dadurch sind sie in der Lage, Sprachstruktur, Grammatik und Kontext zu verstehen, was Anwendungen von hochentwickelten Chatbots über maschinelle Übersetzung bis hin zur Textzusammenfassung ermöglicht.

SSL reduziert die Abhängigkeit von teuren markierten Datensätzen erheblich und demokratisiert die Entwicklung leistungsstarker KI-Modelle. Tools wie PyTorch und TensorFlowsowie Plattformen wie Ultralytics HUB bieten Umgebungen, in denen SSL-Techniken für die Entwicklung und den Einsatz innovativer KI-Lösungen genutzt werden können.

Alles lesen