Glossar

Reinforcement Learning

Entdecken Sie das Verstärkungslernen, bei dem Agenten ihre Handlungen durch Versuch und Irrtum optimieren, um die Belohnungen zu maximieren. Erforschen Sie Konzepte, Anwendungen und Vorteile!

Reinforcement Learning (RL) ist ein Bereich des maschinellen Lernens (ML), in dem ein intelligenter Agent durch Versuch und Irrtum lernt, optimale Entscheidungen zu treffen. Im Gegensatz zu anderen Lernparadigmen wird dem Agenten nicht gesagt, welche Aktionen er ausführen soll. Stattdessen interagiert er mit einer Umgebung und erhält Rückmeldungen in Form von Belohnungen oder Strafen. Das grundlegende Ziel des Agenten besteht darin, eine Strategie, eine so genannte Policy, zu erlernen, die seine kumulative Belohnung im Laufe der Zeit maximiert. Dieser Ansatz ist von der Verhaltenspsychologie inspiriert und eignet sich besonders gut für die Lösung von sequentiellen Entscheidungsproblemen, wie sie in dem grundlegenden Text von Sutton und Barto beschrieben werden.

Wie Reinforcement Learning funktioniert

Der RL-Prozess wird als eine kontinuierliche Rückkopplungsschleife modelliert, die mehrere Schlüsselkomponenten umfasst:

Agent: Der Lernende und Entscheidungsträger, z. B. ein Roboter oder ein Spielprogramm.
Umgebung: Die externe Welt, mit der der Agent interagiert.
Zustand: Eine Momentaufnahme der Umgebung zu einem bestimmten Zeitpunkt, die dem Agenten die Informationen liefert, die er für eine Entscheidung benötigt.
Aktion: Ein Zug, den der Agent aus einer Reihe von möglichen Optionen auswählt.
Belohnung: Ein numerisches Signal, das nach jeder Aktion von der Umgebung an den Agenten gesendet wird und angibt, wie wünschenswert die Aktion war.

Der Agent beobachtet den aktuellen Zustand der Umgebung, führt eine Aktion aus und erhält eine Belohnung zusammen mit dem nächsten Zustand. Dieser Zyklus wiederholt sich, und durch diese Erfahrung verfeinert der Agent allmählich seine Strategie, um Aktionen zu bevorzugen, die zu höheren langfristigen Belohnungen führen. Der formale Rahmen für dieses Problem wird häufig durch einen Markov-Entscheidungsprozess (MDP) beschrieben. Beliebte RL-Algorithmen sind Q-learning und Policy Gradients.

Vergleich mit anderen Lernparadigmen

RL unterscheidet sich von den anderen Hauptarten des maschinellen Lernens:

Überwachtes Lernen: Beim überwachten Lernen lernt ein Modell anhand eines Datensatzes, der vollständig mit korrekten Antworten beschriftet ist. Ein Modell zur Bildklassifizierung wird beispielsweise anhand von Bildern mit eindeutigen Bezeichnungen trainiert. Im Gegensatz dazu lernt RL von Belohnungssignalen ohne explizite Überwachung, was die beste Aktion bei jedem Schritt ist. Sie können einen detaillierten Vergleich zwischen überwachtem und unüberwachtem Lernen durchführen.
Unüberwachtes Lernen: Bei diesem Paradigma geht es darum, verborgene Muster oder Strukturen in unbeschrifteten Daten zu finden. Das Ziel ist die Erkundung der Daten, wie z. B. bei der k-means-Clustering-Methode, und nicht die Entscheidungsfindung zur Maximierung einer Belohnung.
Deep Reinforcement Learning (DRL): DRL ist kein anderes Paradigma, sondern eine fortgeschrittene Form von RL, die tiefe neuronale Netze verwendet, um komplexe, hochdimensionale Zustands- und Aktionsräume zu verarbeiten. Dadurch kann RL auf Probleme skaliert werden, die bisher als unlösbar galten, wie etwa die Verarbeitung von Pixel-Rohdaten einer Kamera für autonome Fahrzeuge.

Anwendungen in der realen Welt

RL hat in einer Vielzahl von komplexen Bereichen bemerkenswerte Erfolge erzielt:

Spiele spielen: RL-Agenten haben übermenschliche Leistungen in komplexen Spielen erzielt. Ein bekanntes Beispiel ist AlphaGo von DeepMind, das gelernt hat, die besten Go-Spieler der Welt zu besiegen. Ein weiteres Beispiel ist die Arbeit von OpenAI an Dota 2, bei der ein Agent komplexe Teamstrategien erlernte.
Robotik: RL wird verwendet, um Roboter für komplizierte Aufgaben wie Objektmanipulation, Montage und Fortbewegung zu trainieren. Anstatt explizit programmiert zu werden, kann ein Roboter lernen, zu gehen oder Objekte zu greifen, indem er für erfolgreiche Versuche in einer simulierten oder realen Umgebung belohnt wird. Dies ist ein Schlüsselbereich der Forschung an Einrichtungen wie dem Berkeley Artificial Intelligence Research (BAIR) Lab.
Ressourcenmanagement: Optimierung von Abläufen in komplexen Systemen, wie z. B. die Steuerung des Verkehrsflusses in Städten, der Lastausgleich in Stromnetzen und die Optimierung chemischer Reaktionen.
Empfehlungssysteme: RL kann verwendet werden, um die Reihenfolge der einem Nutzer empfohlenen Artikel zu optimieren, um das langfristige Engagement und die Zufriedenheit zu maximieren, anstatt nur sofortige Klicks.

Relevanz im AI-Ökosystem

Verstärkungslernen ist eine entscheidende Komponente der breiteren Landschaft der Künstlichen Intelligenz (KI), insbesondere für die Entwicklung autonomer Systeme. Während Unternehmen wie Ultralytics sich auf KI-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung unter Verwendung von überwachtem Lernen spezialisiert haben, sind die Wahrnehmungsfähigkeiten dieser Modelle ein wesentlicher Input für RL-Agenten.

Ein Roboter könnte zum Beispiel ein YOLO-Modell für die Wahrnehmung verwenden, das über Ultralytics HUB eingesetzt wird, um seine Umgebung (den "Zustand") zu verstehen. Eine RL-Strategie nutzt dann diese Informationen, um seine nächste Bewegung zu bestimmen. Diese Synergie zwischen Computer Vision (CV) für die Wahrnehmung und RL für die Entscheidungsfindung ist grundlegend für den Aufbau intelligenter Systeme. Diese Systeme werden oft mit Frameworks wie PyTorch und TensorFlow entwickelt und häufig in standardisierten Simulationsumgebungen wie Gymnasium (früher OpenAI Gym) getestet. Um die Anpassung des Modells an menschliche Präferenzen zu verbessern, gewinnen Techniken wie Reinforcement Learning from Human Feedback (RLHF) ebenfalls zunehmend an Bedeutung. Der Fortschritt im Bereich RL wird kontinuierlich von Organisationen wie DeepMind und akademischen Konferenzen wie NeurIPS vorangetrieben.

Reinforcement Learning

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainieren Sie YOLO-Modelle einfach mit Ultralytics HUB

Wie Reinforcement Learning funktioniert

Vergleich mit anderen Lernparadigmen

Anwendungen in der realen Welt

Relevanz im AI-Ökosystem

Lesen Sie mehr in dieser Kategorie

ERP-Leitfaden für die Fertigung

Fertigungssteuerungssystem (MES): KI-gesteuerte Produktion

Additive Fertigung verstehen: Technologie und Anwendungsfälle

Werden Sie Mitglied der Ultralytics-Gemeinschaft