Glossar

Reinforcement Learning

Entdecken Sie das Verstärkungslernen, bei dem Agenten ihre Handlungen durch Versuch und Irrtum optimieren, um die Belohnungen zu maximieren. Erforschen Sie Konzepte, Anwendungen und Vorteile!

Reinforcement Learning (RL) ist ein Bereich des maschinellen Lernens (ML), in dem ein intelligenter Agent durch Versuch und Irrtum lernt, optimale Entscheidungen zu treffen. Im Gegensatz zu anderen Lernparadigmen wird dem Agenten nicht gesagt, welche Aktionen er ausführen soll. Stattdessen interagiert er mit einer Umgebung und erhält Rückmeldungen in Form von Belohnungen oder Strafen. Das grundlegende Ziel des Agenten besteht darin, eine Strategie, eine so genannte Policy, zu erlernen, die seine kumulative Belohnung im Laufe der Zeit maximiert. Dieser Ansatz ist von der Verhaltenspsychologie inspiriert und eignet sich besonders gut für die Lösung von sequentiellen Entscheidungsproblemen, wie sie in dem grundlegenden Text von Sutton und Barto beschrieben werden.

Wie Reinforcement Learning funktioniert

Der RL-Prozess wird als eine kontinuierliche Rückkopplungsschleife modelliert, die mehrere Schlüsselkomponenten umfasst:

  • Agent: Der Lernende und Entscheidungsträger, z. B. ein Roboter oder ein Spielprogramm.
  • Umgebung: Die externe Welt, mit der der Agent interagiert.
  • Zustand: Eine Momentaufnahme der Umgebung zu einem bestimmten Zeitpunkt, die dem Agenten die Informationen liefert, die er für eine Entscheidung benötigt.
  • Aktion: Ein Zug, den der Agent aus einer Reihe von möglichen Optionen auswählt.
  • Belohnung: Ein numerisches Signal, das nach jeder Aktion von der Umgebung an den Agenten gesendet wird und angibt, wie wünschenswert die Aktion war.

Der Agent beobachtet den aktuellen Zustand der Umgebung, führt eine Aktion aus und erhält eine Belohnung zusammen mit dem nächsten Zustand. Dieser Zyklus wiederholt sich, und durch diese Erfahrung verfeinert der Agent allmählich seine Strategie, um Aktionen zu bevorzugen, die zu höheren langfristigen Belohnungen führen. Der formale Rahmen für dieses Problem wird häufig durch einen Markov-Entscheidungsprozess (MDP) beschrieben. Beliebte RL-Algorithmen sind Q-learning und Policy Gradients.

Vergleich mit anderen Lernparadigmen

RL unterscheidet sich von den anderen Hauptarten des maschinellen Lernens:

Anwendungen in der realen Welt

RL hat in einer Vielzahl von komplexen Bereichen bemerkenswerte Erfolge erzielt:

  • Spiele spielen: RL-Agenten haben übermenschliche Leistungen in komplexen Spielen erzielt. Ein bekanntes Beispiel ist AlphaGo von DeepMind, das gelernt hat, die besten Go-Spieler der Welt zu besiegen. Ein weiteres Beispiel ist die Arbeit von OpenAI an Dota 2, bei der ein Agent komplexe Teamstrategien erlernte.
  • Robotik: RL wird verwendet, um Roboter für komplizierte Aufgaben wie Objektmanipulation, Montage und Fortbewegung zu trainieren. Anstatt explizit programmiert zu werden, kann ein Roboter lernen, zu gehen oder Objekte zu greifen, indem er für erfolgreiche Versuche in einer simulierten oder realen Umgebung belohnt wird. Dies ist ein Schlüsselbereich der Forschung an Einrichtungen wie dem Berkeley Artificial Intelligence Research (BAIR) Lab.
  • Ressourcenmanagement: Optimierung von Abläufen in komplexen Systemen, wie z. B. die Steuerung des Verkehrsflusses in Städten, der Lastausgleich in Stromnetzen und die Optimierung chemischer Reaktionen.
  • Empfehlungssysteme: RL kann verwendet werden, um die Reihenfolge der einem Nutzer empfohlenen Artikel zu optimieren, um das langfristige Engagement und die Zufriedenheit zu maximieren, anstatt nur sofortige Klicks.

Relevanz im AI-Ökosystem

Verstärkungslernen ist eine entscheidende Komponente der breiteren Landschaft der Künstlichen Intelligenz (KI), insbesondere für die Entwicklung autonomer Systeme. Während Unternehmen wie Ultralytics sich auf KI-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung unter Verwendung von überwachtem Lernen spezialisiert haben, sind die Wahrnehmungsfähigkeiten dieser Modelle ein wesentlicher Input für RL-Agenten.

Ein Roboter könnte zum Beispiel ein YOLO-Modell für die Wahrnehmung verwenden, das über Ultralytics HUB eingesetzt wird, um seine Umgebung (den "Zustand") zu verstehen. Eine RL-Strategie nutzt dann diese Informationen, um seine nächste Bewegung zu bestimmen. Diese Synergie zwischen Computer Vision (CV) für die Wahrnehmung und RL für die Entscheidungsfindung ist grundlegend für den Aufbau intelligenter Systeme. Diese Systeme werden oft mit Frameworks wie PyTorch und TensorFlow entwickelt und häufig in standardisierten Simulationsumgebungen wie Gymnasium (früher OpenAI Gym) getestet. Um die Anpassung des Modells an menschliche Präferenzen zu verbessern, gewinnen Techniken wie Reinforcement Learning from Human Feedback (RLHF) ebenfalls zunehmend an Bedeutung. Der Fortschritt im Bereich RL wird kontinuierlich von Organisationen wie DeepMind und akademischen Konferenzen wie NeurIPS vorangetrieben.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert