Glossar

Reinforcement Learning

Entdecke das Verstärkungslernen, bei dem Agenten ihre Handlungen durch Versuch und Irrtum optimieren, um die Belohnung zu maximieren. Erforsche Konzepte, Anwendungen und Vorteile!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Reinforcement Learning (RL) ist eine Art des maschinellen Lernens (ML), bei dem ein intelligenter Agent lernt, eine Reihe von Entscheidungen zu treffen, indem er versucht, eine Belohnung für seine Handlungen zu maximieren. Im Gegensatz zum überwachten Lernen, bei dem aus markierten Beispielen gelernt wird, oder zum unüberwachten Lernen, bei dem Muster in unmarkierten Daten gefunden werden, lernt RL durch Versuch und Irrtum, indem es mit der Umgebung interagiert. Der Agent erhält Rückmeldungen in Form von Belohnungen oder Strafen für seine Handlungen und lenkt seinen Lernprozess auf ein bestimmtes Ziel hin.

Kernkonzepte

Es gibt mehrere Schlüsselkomponenten, die ein Reinforcement Learning System ausmachen:

  • Agent: Die lernende oder entscheidungsfähige Einheit, die mit der Umwelt interagiert.
  • Umwelt: Das externe System oder die Welt, in der der Agent agiert.
  • Zustand: Eine Darstellung der aktuellen Situation oder Konfiguration der vom Agenten wahrgenommenen Umgebung.
  • Aktion: Eine Entscheidung oder Bewegung, die der Agent in der Umgebung trifft.
  • Belohnung: Ein numerisches Signal, das man von der Umwelt erhält, nachdem man eine Handlung ausgeführt hat, und das anzeigt, wie gut oder schlecht diese Handlung in einem bestimmten Zustand war. Das Ziel des Agenten besteht normalerweise darin, die kumulative Belohnung über die Zeit zu maximieren.
  • Strategie: Die Strategie oder Zuordnung, die der Agent verwendet, um die nächste Aktion auf der Grundlage des aktuellen Zustands zu bestimmen. Dies ist im Wesentlichen das, was der Agent lernt.
  • Wertfunktion: Eine Vorhersage der erwarteten zukünftigen Belohnungen, die in einem bestimmten Zustand oder durch das Ausführen einer bestimmten Handlung in einem bestimmten Zustand nach einer bestimmten Strategie erzielt werden können.
  • Markov-Entscheidungsprozess (MDP): Ein mathematischer Rahmen, der häufig zur Modellierung von RL-Problemen verwendet wird und die Interaktionen zwischen dem Agenten und der Umwelt definiert.

Eine grundlegende Herausforderung im RL ist der Kompromiss zwischen Erkundung und Ausbeutung: Der Agent muss abwägen zwischen der Erkundung neuer Aktionen, um potenziell höhere Belohnungen zu entdecken (Erkundung), und der Wahl von Aktionen, die bekanntermaßen gute Belohnungen bringen (Ausbeutung).

Wie Reinforcement Learning funktioniert

Der RL-Prozess ist in der Regel iterativ. Der Agent beobachtet den aktuellen Zustand der Umwelt, wählt eine Aktion auf der Grundlage seiner aktuellen Strategie, führt die Aktion aus und erhält eine Belohnung (oder Strafe) und den nächsten Zustand von der Umwelt. Dieses Feedback wird verwendet, um die Strategie oder die Wertfunktion des Agenten zu aktualisieren und so seine Entscheidungsfindung im Laufe der Zeit zu verbessern. Zu den gängigen RL-Algorithmen gehören Q-Learning, SARSA und Policy-Gradient-Methoden, die jeweils unterschiedliche Strategien zum Lernen und Aktualisieren der Strategie anwenden. Deep Reinforcement Learning (DRL) kombiniert RL mit Deep-Learning-Techniken und verwendet neuronale Netze (NN), um Strategien oder Wertfunktionen zu approximieren. Damit kann RL Probleme mit komplexen, hochdimensionalen Zustandsräumen wie Bildern oder Sensordaten angehen.

Vergleich mit anderen Lernparadigmen

RL unterscheidet sich deutlich von anderen ML-Paradigmen:

  • Überwachtes Lernen: Lernt aus einem Datensatz mit markierten Beispielen (Eingabe-Ausgabe-Paaren). Ziel ist es, eine Abbildungsfunktion zu erlernen, die die Ergebnisse für neue Eingaben vorhersagt. Beispiele sind Bildklassifizierung und Regression. RL lernt durch Interaktion und Feedback (Belohnungen), nicht durch vordefinierte richtige Antworten.
  • Unüberwachtes Lernen: Lernt Muster und Strukturen aus nicht beschrifteten Daten. Beispiele sind Clustering und Dimensionalitätsreduktion. RL ist zielorientiert, d.h. es lernt eine Strategie, um die Belohnung zu maximieren, während sich unüberwachtes Lernen auf die Entdeckung von Datenstrukturen konzentriert.

Anwendungen in der realen Welt

RL hat in verschiedenen Bereichen Durchbrüche ermöglicht:

Relevanz im KI-Ökosystem

Reinforcement Learning ist ein wichtiger Bestandteil der Künstlichen Intelligenz (KI), insbesondere für die Entwicklung autonomer Systeme, die komplexe Entscheidungen treffen können. Unternehmen wie Ultralytics haben sich auf KI-Vision-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung mit überwachtem Lernen spezialisiert haben, sind die Wahrnehmungsfähigkeiten, die diese Modelle bieten, oft wichtige Inputs (Zustände) für RL-Agenten. Ein Roboter könnte zum Beispiel ein Objekterkennungsmodell verwenden, das über Ultralytics HUB eingesetzt wird, um seine Umgebung zu verstehen, bevor eine RL-Richtlinie über seine nächste Bewegung entscheidet. Das Verständnis von RL gibt Aufschluss darüber, wie fortschrittliche Wahrnehmung in den Aufbau intelligenter, autonomer Systeme einfließt, die oft mit Frameworks wie PyTorch entwickelt und in Simulationsumgebungen wie Gymnasium (früher OpenAI Gym) getestet werden. Bei vielen realen Anwendungen wird die Wahrnehmung(Computer Vision) mit der Entscheidungsfindung (RL) verknüpft.

Alles lesen