Glossar

Selbstüberwachtes Lernen

Entdecke, wie selbstüberwachtes Lernen unmarkierte Daten für ein effizientes Training nutzt und damit die KI in den Bereichen Computer Vision, NLP und mehr verändert.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Selbstüberwachtes Lernen ist ein Ansatz des maschinellen Lernens, bei dem unmarkierte Daten zum Trainieren von Modellen genutzt werden. Im Gegensatz zum überwachten Lernen, das markierte Datensätze benötigt, erzeugt das selbstüberwachte Lernen seine eigenen Markierungen aus der inhärenten Struktur der unmarkierten Daten selbst. Diese Methode ist besonders wertvoll in Bereichen wie Computer Vision (CV) und Natural Language Processing (NLP), in denen große Mengen an unmarkierten Daten zur Verfügung stehen, die manuelle Markierung aber kostspielig und zeitaufwändig ist.

Wie selbstüberwachtes Lernen funktioniert

Die Kernidee des selbstüberwachten Lernens besteht darin, eine "Vorwandaufgabe" zu entwerfen, die es einem Modell ermöglicht, nützliche Darstellungen aus unbeschrifteten Daten zu lernen. Diese Vorgabeaufgabe wird so formuliert, dass sie nur gelöst werden kann, wenn man sinnvolle Muster in den Daten versteht. In der Bildverarbeitung könnte eine Vorgabeaufgabe zum Beispiel darin bestehen, die auf ein Bildfeld angewendete Drehung vorherzusagen oder ein Graustufenbild einzufärben. In der Sprachverarbeitung ist eine häufige Vortextaufgabe die Modellierung maskierter Sprache, bei der das Modell maskierte Wörter in einem Satz vorhersagt.

Sobald das Modell mit einer großen Menge an unmarkierten Daten für eine bestimmte Aufgabe trainiert wurde, lernt es allgemeine Merkmale und Darstellungen der Daten. Diese gelernten Repräsentationen können dann übertragen und für nachgelagerte Aufgaben wie Objekterkennung, Bildklassifizierung oder Bildsegmentierung verfeinert werden, und zwar oft mit deutlich weniger beschrifteten Daten als für ein rein überwachtes Training erforderlich wären. Diese Fähigkeit zum Transferlernen ist ein entscheidender Vorteil des selbstüberwachten Lernens.

Anwendungen des selbstüberwachten Lernens

Selbstüberwachtes Lernen findet in verschiedenen Bereichen Anwendung, vor allem dort, wo gelabelte Daten knapp oder teuer zu beschaffen sind:

  • Computer Vision: In der medizinischen Bildanalyse können durch selbstüberwachtes Lernen Modelle auf großen Datensätzen mit unmarkierten medizinischen Bildern (wie Röntgenbildern oder MRT-Scans) vortrainiert werden. Diese vortrainierten Modelle können dann für bestimmte diagnostische Aufgaben mit begrenzten beschrifteten Daten feinabgestimmt werden, um die Genauigkeit und Effizienz der medizinischen Bildauswertung zu verbessern. Zum Beispiel können Modelle wie Ultralytics YOLOv8 von einem selbstüberwachten Vortraining profitieren, um ihre Leistung bei der Erkennung von Anomalien in medizinischen Bildern zu verbessern.
  • Natürliche Sprachverarbeitung: Große Sprachmodelle (LLMs) wie das GPT-4 werden oft mit selbstüberwachten Lerntechniken auf riesigen Mengen von Textdaten vortrainiert. Dieses Vortraining ermöglicht es ihnen, allgemeine Sprachverstehens- und -generierungsfähigkeiten zu erlernen, die dann für spezifische NLP-Aufgaben wie Textzusammenfassung, Übersetzung oder Stimmungsanalyse feinabgestimmt werden. Techniken wie das Prompt-Tuning nutzen diese vortrainierten Modelle weiter, um sie effizient an neue Aufgaben anzupassen.

Selbstüberwachtes Lernen im Vergleich zu ähnlichen Konzepten

Es ist wichtig, das selbstüberwachte Lernen von anderen verwandten Paradigmen des maschinellen Lernens zu unterscheiden:

  • Unüberwachtes Lernen: Während beide mit unmarkierten Daten arbeiten, zielt unüberwachtes Lernen darauf ab, inhärente Strukturen oder Muster in den Daten zu finden, ohne eine bestimmte Aufgabe im Sinn zu haben (z. B. Clustering, Dimensionalitätsreduktion). Beim selbstüberwachten Lernen hingegen wird eine Vorgabe formuliert, um Repräsentationen zu lernen, die für nachfolgende Aufgaben nützlich sind.
  • Semi-überwachtes Lernen: Semi-überwachtes Lernen verwendet eine Kombination aus gelabelten und nicht gelabelten Daten, ist aber immer noch auf eine gewisse Menge gelabelter Daten für das Training angewiesen. Selbstüberwachtes Lernen konzentriert sich in erster Linie auf das Lernen aus unmarkierten Daten und eine mögliche Feinabstimmung mit einer kleinen Menge markierter Daten.

Selbstüberwachtes Lernen stellt einen bedeutenden Fortschritt im maschinellen Lernen dar, da es die effektive Nutzung der riesigen Mengen an unmarkierten Daten ermöglicht und die Abhängigkeit von teuren markierten Datensätzen verringert. Da Modelle wie Ultralytics YOLO11 weiterentwickelt werden, werden selbstüberwachte Techniken wahrscheinlich eine immer wichtigere Rolle bei der Verbesserung ihrer Leistung und Anwendbarkeit in verschiedenen KI-Anwendungen spielen.

Alles lesen