Entdecken Sie das Verstärkungslernen, bei dem Agenten ihre Handlungen durch Versuch und Irrtum optimieren, um die Belohnungen zu maximieren. Erforschen Sie Konzepte, Anwendungen und Vorteile!
Reinforcement Learning (RL) ist ein Bereich des maschinellen Lernens (ML), in dem ein intelligenter Agent durch Versuch und Irrtum lernt, optimale Entscheidungen zu treffen. Im Gegensatz zu anderen Lernparadigmen wird dem Agenten nicht gesagt, welche Aktionen er ausführen soll. Stattdessen interagiert er mit einer Umgebung und erhält Rückmeldungen in Form von Belohnungen oder Strafen. Das grundlegende Ziel des Agenten besteht darin, eine Strategie, eine so genannte Policy, zu erlernen, die seine kumulative Belohnung im Laufe der Zeit maximiert. Dieser Ansatz ist von der Verhaltenspsychologie inspiriert und eignet sich besonders gut für die Lösung von sequentiellen Entscheidungsproblemen, wie sie in dem grundlegenden Text von Sutton und Barto beschrieben werden.
Der RL-Prozess wird als eine kontinuierliche Rückkopplungsschleife modelliert, die mehrere Schlüsselkomponenten umfasst:
Der Agent beobachtet den aktuellen Zustand der Umgebung, führt eine Aktion aus und erhält eine Belohnung zusammen mit dem nächsten Zustand. Dieser Zyklus wiederholt sich, und durch diese Erfahrung verfeinert der Agent allmählich seine Strategie, um Aktionen zu bevorzugen, die zu höheren langfristigen Belohnungen führen. Der formale Rahmen für dieses Problem wird häufig durch einen Markov-Entscheidungsprozess (MDP) beschrieben. Beliebte RL-Algorithmen sind Q-learning und Policy Gradients.
RL unterscheidet sich von den anderen Hauptarten des maschinellen Lernens:
RL hat in einer Vielzahl von komplexen Bereichen bemerkenswerte Erfolge erzielt:
Verstärkungslernen ist eine entscheidende Komponente der breiteren Landschaft der Künstlichen Intelligenz (KI), insbesondere für die Entwicklung autonomer Systeme. Während Unternehmen wie Ultralytics sich auf KI-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung unter Verwendung von überwachtem Lernen spezialisiert haben, sind die Wahrnehmungsfähigkeiten dieser Modelle ein wesentlicher Input für RL-Agenten.
Ein Roboter könnte zum Beispiel ein YOLO-Modell für die Wahrnehmung verwenden, das über Ultralytics HUB eingesetzt wird, um seine Umgebung (den "Zustand") zu verstehen. Eine RL-Strategie nutzt dann diese Informationen, um seine nächste Bewegung zu bestimmen. Diese Synergie zwischen Computer Vision (CV) für die Wahrnehmung und RL für die Entscheidungsfindung ist grundlegend für den Aufbau intelligenter Systeme. Diese Systeme werden oft mit Frameworks wie PyTorch und TensorFlow entwickelt und häufig in standardisierten Simulationsumgebungen wie Gymnasium (früher OpenAI Gym) getestet. Um die Anpassung des Modells an menschliche Präferenzen zu verbessern, gewinnen Techniken wie Reinforcement Learning from Human Feedback (RLHF) ebenfalls zunehmend an Bedeutung. Der Fortschritt im Bereich RL wird kontinuierlich von Organisationen wie DeepMind und akademischen Konferenzen wie NeurIPS vorangetrieben.