Glossar

Reinforcement Learning

Entdecke die Macht des Reinforcement Learning: ein Ansatz des maschinellen Lernens, bei dem Agenten mit der Umgebung interagieren, um die Belohnungen zu maximieren. Erfahre mehr!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Reinforcement Learning (RL) ist eine Art des maschinellen Lernens, bei dem ein Agent lernt, eine Reihe von Entscheidungen zu treffen, indem er mit einer Umgebung interagiert. Der Agent führt in dieser Umgebung Aktionen aus und erhält Rückmeldungen in Form von Belohnungen oder Bestrafungen. Das Ziel ist es, dass der Agent eine Strategie lernt, die die kumulative Belohnung über die Zeit maximiert. Dieser Lernprozess ist von der Verhaltenspsychologie inspiriert, bei der Lernen durch Versuch und Irrtum erfolgt. Im Gegensatz zum überwachten Lernen, das sich auf markierte Daten stützt, oder zum unüberwachten Lernen, bei dem es darum geht, Muster in unmarkierten Daten zu finden, wird das Verstärkungslernen durch die Dynamik der Interaktion zwischen dem Agenten und seiner Umgebung bestimmt.

Schlüsselkonzepte des Verstärkungslernens

Für das Verständnis des Verstärkungslernens sind mehrere Kernkonzepte grundlegend:

  • Agent: Der Lernende und Entscheidungsträger, der mit der Umwelt interagiert.
  • Umgebung: Das externe System, mit dem der Agent interagiert. Es präsentiert dem Agenten einen Zustand und empfängt die Aktionen des Agenten.
  • Zustand: Eine Darstellung der Umgebung zu einem bestimmten Zeitpunkt. Er liefert dem Agenten die Informationen, die er für eine Aktion benötigt.
  • Aktion: Eine Bewegung oder Entscheidung des Agenten, die sich auf die Umgebung auswirkt.
  • Belohnung: Rückmeldung aus der Umwelt, die den Erfolg oder Misserfolg der Handlungen des Agenten misst. Das Ziel des Agenten ist es, die Gesamtbelohnung über die Zeit zu maximieren.
  • Strategie: Eine Strategie, die der Agent anwendet, um die nächste Aktion auf der Grundlage des aktuellen Zustands zu bestimmen. Sie kann deterministisch oder stochastisch sein.
  • Wertfunktion: Eine Funktion, die die erwartete kumulative Belohnung dafür schätzt, in einem bestimmten Zustand zu sein oder eine bestimmte Handlung in einem Zustand auszuführen.
  • Q-Wert: Die erwartete Rendite, wenn du von einem bestimmten Zustand ausgehst, eine bestimmte Aktion durchführst und dann eine bestimmte Politik verfolgst.

Relevanz und Anwendungen von Reinforcement Learning

Verstärkungslernen hat aufgrund seiner Fähigkeit, komplexe Entscheidungsprobleme zu lösen, die zuvor unlösbar waren, große Aufmerksamkeit erregt. Seine Relevanz erstreckt sich über verschiedene Bereiche, was seine Vielseitigkeit und Leistungsfähigkeit unter Beweis stellt. In autonomen Fahrzeugen können RL-Algorithmen zum Beispiel eingesetzt werden, um Fahrzeuge zu trainieren, Straßen zu navigieren, Entscheidungen im Verkehr zu treffen und Routen zu optimieren. Im Gesundheitswesen können RL-Algorithmen Behandlungspläne auf der Grundlage von Patientenreaktionen personalisieren und den Krankenhausbetrieb optimieren.

Beispiele aus der Praxis für Reinforcement Learning

Spiele spielen: Eines der bekanntesten Beispiele für RL ist der Bereich des Spielens. AlphaGo von DeepMind, eine KI, die den Weltmeister im Go-Spiel besiegt hat, nutzte Verstärkungslernen, um das Spiel zu meistern. Auch AlphaZero hat übermenschliche Leistungen in Schach, Shogi und Go erzielt und damit die Stärke von RL bei der Beherrschung komplexer Strategiespiele unter Beweis gestellt. Erfahre mehr über KI in Videospielen auf dem Blog Ultralytics .

Robotik: Verstärkungslernen wird in der Robotik ausgiebig für Aufgaben wie Robotersteuerung, Navigation und Manipulation eingesetzt. Roboter können zum Beispiel lernen, zu laufen, Objekte zu greifen und komplexe Aufgaben durch Versuch und Irrtum auszuführen, wobei sie durch Belohnungen gesteuert werden. Dies ist besonders nützlich in Szenarien, in denen eine explizite Programmierung schwierig ist. Erforsche die Integration von Computer Vision in der Robotik, um mehr zu erfahren.

Unterscheidung zwischen Verstärkungslernen und verwandten Begriffen

Obwohl das verstärkende Lernen eine leistungsstarke Technik ist, ist es wichtig, es von anderen Paradigmen des maschinellen Lernens zu unterscheiden:

  • Überwachtes Lernen: Beim überwachten Lernen werden Modelle auf markierten Datensätzen trainiert, bei denen die richtige Ausgabe für jede Eingabe bekannt ist. Im Gegensatz dazu wird beim Reinforcement Learning anhand von Belohnungen und Strafen ohne explizite Kennzeichnung gelernt. Erforsche das überwachte Lernen im Detail.
  • Unüberwachtes Lernen: Unüberwachtes Lernen befasst sich mit unmarkierten Daten und zielt darauf ab, zugrunde liegende Muster und Strukturen zu entdecken. Beim Verstärkungslernen hingegen geht es darum, durch Interaktion mit der Umgebung optimale Handlungen zu erlernen. Erfahre mehr über unüberwachtes Lernen.

Technologien und Werkzeuge des Reinforcement Learning

Verschiedene Technologien und Frameworks unterstützen die Entwicklung und den Einsatz von Reinforcement Learning-Modellen. PyTorch und TensorFlow sind beliebte Deep-Learning-Frameworks, die Werkzeuge für den Aufbau und das Training von RL-Agenten bereitstellen. Darüber hinaus bieten Umgebungen wie OpenAI Gym standardisierte Umgebungen für das Trainieren und Testen von RL-Algorithmen. Ultralytics bietet auch innovative Lösungen im Bereich Computer Vision, die mit Reinforcement-Learning-Techniken integriert werden können. So können z. B. die Modelle von Ultralytics YOLO für Aufgaben der Objekterkennung in einem RL-Framework verwendet werden. Mehr über den Einsatz von Modellen erfährst du auf der Seite Ultralytics HUB.

Alles lesen