Glossar

Reinforcement Learning

Entdecke das Verstärkungslernen, bei dem Agenten ihre Handlungen durch Versuch und Irrtum optimieren, um die Belohnung zu maximieren. Erforsche Konzepte, Anwendungen und Vorteile!

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Verstärkungslernen (Reinforcement Learning, RL) ist ein spezieller Bereich des maschinellen Lernens (ML), bei dem ein Agent lernt, Entscheidungen zu treffen, indem er in einer Umgebung Aktionen ausführt, um ein bestimmtes Ziel zu erreichen. Im Gegensatz zu anderen ML-Paradigmen wird den RL-Agenten nicht ausdrücklich gesagt, welche Aktionen sie ausführen sollen. Stattdessen lernen sie durch Versuch und Irrtum und erhalten Rückmeldungen in Form von Belohnungen oder Bestrafungen für ihre Handlungen. Das grundlegende Ziel des Agenten ist es, eine Strategie zu erlernen, die seine kumulative Belohnung im Laufe der Zeit maximiert.

Kernkonzepte des Verstärkungslernens

Zum Verständnis von RL gehören mehrere Schlüsselkomponenten:

  • Agent: Der Lernende oder Entscheidungsträger, der mit der Umwelt interagiert.
  • Umgebung: Die externe Welt oder das System, mit dem der Agent interagiert. Sie gibt dem Agenten Rückmeldung.
  • Zustand: Eine Darstellung der aktuellen Situation oder Konfiguration der Umgebung. Bei Computer Vision (CV) Anwendungen kann der Zustand aus Bilddaten abgeleitet werden.
  • Aktion: Eine Bewegung oder Entscheidung des Agenten, die den Zustand der Umgebung beeinflusst.
  • Belohnung: Ein numerisches Feedbacksignal aus der Umwelt, das anzeigt, wie gut oder schlecht die letzte Aktion des Agenten in Bezug auf das Ziel war.
  • Strategie: Die Strategie oder Abbildung, die der Agent verwendet, um die nächste Aktion auf der Grundlage des aktuellen Zustands zu bestimmen. Das Ziel von RL ist es, die optimale Strategie zu finden.

Wie Reinforcement Learning funktioniert

Der RL-Prozess ist iterativ. Der Agent beobachtet den aktuellen Zustand der Umgebung, wählt eine Aktion auf der Grundlage seiner aktuellen Strategie und führt diese Aktion aus. Die Umwelt wechselt in einen neuen Zustand und gibt dem Agenten ein Belohnungssignal. Der Agent nutzt dieses Belohnungssignal, um seine Strategie zu aktualisieren, damit er in Zukunft mehr Belohnungen erhält. Ein wichtiger Aspekt dieses Prozesses ist das Gleichgewicht zwischen Exploration (das Ausprobieren neuer Aktionen, um potenziell bessere Belohnungen zu erhalten) und Exploitation (das Ausnutzen bekannter Aktionen, die hohe Belohnungen bringen). Diese Lernschleife wird oft mit Markov-Entscheidungsprozessen (MDPs) formalisiert.

Vergleich mit anderen Arten des maschinellen Lernens

RL unterscheidet sich deutlich von anderen primären ML-Paradigmen:

  • Überwachtes Lernen: Lernt aus gelabelten Datensätzen, bei denen für jede Eingabe die richtige Ausgabe angegeben wird. RL lernt von Belohnungssignalen ohne explizite Kennzeichnung der richtigen Aktion.
  • Unüberwachtes Lernen: Findet Muster und Strukturen in unbeschrifteten Daten. RL konzentriert sich auf zielgerichtetes Lernen durch Interaktion und Feedback.

Während Techniken aus dem Deep Learning (DL), wie z.B. die Verwendung von Neuronalen Netzen (NN), oft im RL (bekannt als Deep Reinforcement Learning) eingesetzt werden, um komplexe Zustandsräume (wie Bilder) zu behandeln und Richtlinien oder Wertfunktionen zu approximieren, bleibt der grundlegende Lernmechanismus, der auf Belohnungen basiert, unterschiedlich.

Anwendungen in der realen Welt

RL hat in verschiedenen komplexen Bereichen bemerkenswerte Erfolge gezeigt:

  1. Spielend spielen: RL-Agenten haben übermenschliche Leistungen in komplexen Spielen wie Go(AlphaGo von DeepMind) und verschiedenen Videospielen(OpenAI Five in Dota 2) erzielt. Diese Agenten lernen komplizierte Strategien durch eigenes Spiel und übertreffen damit die menschlichen Fähigkeiten bei weitem. Diese Fähigkeit wird in AI in Video Games erforscht.
  2. Robotik: RL wird verwendet, um Roboter für Aufgaben wie Fortbewegung, Objektmanipulation und Montage zu trainieren. Roboter können komplexe motorische Fähigkeiten in simulierten Umgebungen oder direkt durch Interaktion in der realen Welt erlernen und sich an unvorhergesehene Umstände anpassen. Du kannst mehr über Understanding Robotics Integration erfahren.
  3. Autonome Fahrzeuge: RL-Algorithmen können verwendet werden, um Fahrstrategien zu optimieren, wie z.B. die Entscheidungsfindung bei Spurwechseln, Zusammenführungen oder dem Navigieren an Kreuzungen, was zu den Fortschritten beiträgt, die in KI in selbstfahrenden Autos diskutiert werden.
  4. Empfehlungssysteme: RL können Empfehlungen personalisieren, indem sie die Vorlieben der Nutzer/innen auf der Grundlage von Interaktionen und Feedback im Laufe der Zeit erlernen und sich dynamisch an veränderte Vorlieben anpassen. Erfahre mehr über Empfehlungssysteme.

Reinforcement Learning und Computer Vision

In vielen realen RL-Anwendungen, insbesondere in der Robotik und bei autonomen Systemen, spielt Computer Vision (CV) eine entscheidende Rolle. Modelle wie Ultralytics YOLO können visuelle Eingaben (z. B. Kamerabilder) verarbeiten, um relevante Informationen über die Umgebung zu extrahieren, die den "Zustand" des RL-Agenten darstellen. So können Agenten ihre Umgebung wahrnehmen und auf der Grundlage visueller Daten fundierte Entscheidungen treffen. Tools wie OpenAI Gym und spezielle Simulatoren werden häufig zum Trainieren dieser visuellen RL-Agenten verwendet. Während sich Ultralytics in erster Linie auf Wahrnehmungsaufgaben durch überwachtes Lernen konzentrieren, können ihre Ergebnisse als wichtige Inputs für RL-Systeme dienen, die physische Agenten steuern oder durch komplexe visuelle Umgebungen navigieren. Das Training und der Einsatz solch komplexer Systeme kann mit Plattformen wie Ultralytics HUB verwaltet werden.

Für ein grundlegendes Verständnis der RL-Konzepte sind Ressourcen wie die einführenden Kapitel von Suttons und Bartos Buch über Reinforcement Learning sehr zu empfehlen.

Alles lesen