Glossar

Deep Reinforcement Learning

Entdecken Sie Deep Reinforcement Learning (DRL) und wie es KI-Entscheidungsfindung mit Deep Learning kombiniert. Lernen Sie noch heute, Ultralytics als Wahrnehmungsschicht zu verwenden.

Deep Reinforcement Learning (DRL) ist ein fortgeschrittener Teilbereich der künstlichen Intelligenz (KI), der die Entscheidungsfähigkeiten des Reinforcement Learning mit der Wahrnehmungsfähigkeit des Deep Learning (DL) kombiniert. Während das traditionelle Reinforcement Learning auf tabellarischen Methoden basiert, um Situationen auf Handlungen abzubilden, stoßen diese Methoden an ihre Grenzen, wenn die Umgebung komplex oder visuell ist. DRL überwindet dies durch den Einsatz neuronaler Netze zur Interpretation hochdimensionaler Eingabedaten wie Videobilder oder Sensorwerte, wodurch Maschinen in die Lage versetzt werden, effektive Strategien direkt aus rohen Erfahrungen ohne explizite menschliche Anweisungen zu lernen.

Der Kernmechanismus von DRL

In einem DRL-System interagiert ein KI-Agent in diskreten Zeitschritten mit einer Umgebung . Bei jedem Schritt beobachtet der Agent den aktuellen „Zustand“, wählt auf der Grundlage einer Richtlinie eine Aktion aus und erhält ein Belohnungssignal, das den Erfolg oder Misserfolg dieser Aktion anzeigt. Das primäre Ziel besteht darin, die kumulative Belohnung im Laufe der Zeit zu maximieren.

Die „tiefe“ Komponente bezieht sich auf die Verwendung tiefer neuronaler Netze zur Annäherung an die Politik (die Strategie für das Handeln) oder die Wertfunktion (die geschätzte zukünftige Belohnung). Dies ermöglicht es dem Agenten, unstrukturierte Daten zu verarbeiten und mithilfe von Computer Vision (CV) die Umgebung ähnlich wie ein Mensch zu „sehen“. Diese Fähigkeit wird durch Frameworks wie PyTorch PyTorch oder TensorFlow, die das Training dieser komplexen Netzwerke erleichtern.

Anwendungsfälle in der Praxis

DRL hat sich über die theoretische Forschung hinaus zu praktischen, wirkungsvollen Anwendungen in verschiedenen Branchen entwickelt:

Fortgeschrittene Robotik: Im Bereich der KI in der Robotik ermöglicht DRL Maschinen das Erlernen komplexer motorischer Fähigkeiten, die schwer fest zu programmieren sind. Roboter können lernen, unregelmäßige Objekte zu greifen oder unebenes Gelände zu durchqueren , indem sie ihre Bewegungen innerhalb von Physik-Engines wie NVIDIA Sim verfeinern. Dies beinhaltet oft das Training mit synthetischen Daten, bevor die Richtlinie auf physische Hardware übertragen wird.
Autonomes Fahren: Autonome Fahrzeuge nutzen DRL, um in unvorhersehbaren Verkehrssituationen Entscheidungen in Echtzeit zu treffen. Während Objekterkennungsmodelle Fußgänger und Verkehrszeichen identifizieren, nutzen DRL-Algorithmen diese Informationen, um sichere Fahrrichtlinien für das Einfädeln, das Navigieren an Kreuzungen und die Geschwindigkeitskontrolle festzulegen und so die für die Sicherheit erforderliche Inferenzlatenz effektiv zu verwalten.

Vision als staatlicher Beobachter

Bei vielen DRL-Anwendungen ist der „Zustand“ visuell. Hochgeschwindigkeitsmodelle fungieren als die Augen des Agenten und wandeln Rohbilder in strukturierte Daten um, auf die das Policy-Netzwerk reagieren kann. Das folgende Beispiel veranschaulicht, wie das YOLO26-Modell als Wahrnehmungsschicht für einen Agenten dient und Beobachtungen (z. B. Hinderniszählungen) aus der Umgebung extrahiert.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Unterscheidung zwischen DRL und verwandten Konzepten

Es ist hilfreich, Deep Reinforcement Learning von ähnlichen Begriffen abzugrenzen, um seine einzigartige Position in der KI-Landschaft zu verstehen. KI-Landschaft zu verstehen:

Reinforcement Learning (RL): Standard-RL ist das grundlegende Konzept, stützt sich jedoch in der Regel auf Nachschlagetabellen (wie Q-Tabellen), die für große Zustandsräume unpraktisch sind. DRL löst dieses Problem durch den Einsatz von Deep Learning zur Approximation von Funktionen, wodurch es in der Lage ist, komplexe Eingaben wie Bilder zu verarbeiten.
Reinforcement Learning from Human Feedback (RLHF): Während DRL in der Regel für eine mathematisch definierte Belohnungsfunktion (z. B. Punkte in einem Spiel) optimiert, verfeinert RLHF Modelle – insbesondere Large Language Models (LLMs)– unter Verwendung subjektiver menschlicher Präferenzen, um das Verhalten der KI an menschlichen Werten auszurichten, eine Technik, die von Forschungsgruppen wie OpenAI
Unüberwachtes Lernen: Unüberwachte Methoden suchen ohne explizites Feedback nach versteckten Mustern in Daten. Im Gegensatz dazu ist DRL zielorientiert und wird von einem Belohnungssignal gesteuert, das den Agenten aktiv zu einem bestimmten Ziel führt, wie in den grundlegenden Texten von Sutton und Barto erläutert.

Entwickler, die die für die Wahrnehmungsebenen von DRL-Systemen erforderlichen Datensätze verwalten möchten, können die Ultralytics nutzen, die Annotations- und Cloud-Trainings-Workflows vereinfacht . Darüber hinaus verwenden Forscher häufig standardisierte Umgebungen wie Gymnasium, um ihre DRL-Algorithmen anhand etablierter Baselines zu benchmarken.

Deep Reinforcement Learning

Trainieren Sie Ultralytics YOLO zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Der Kernmechanismus von DRL

Anwendungsfälle in der Praxis

Vision als staatlicher Beobachter

Unterscheidung zwischen DRL und verwandten Konzepten

Mehr in dieser Kategorie lesen

12 Anwendungsfälle für Luftbildaufnahmen, unterstützt durch Computer Vision

Was ist monokulare Tiefenschätzung? Ein Überblick

Ein Blick auf die Verwendung von Ultralytics YOLO für die KI-Bedrohungserkennung

Werden Sie Mitglied der Ultralytics