Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Reinforcement Learning

Entdecken Sie die Kernkonzepte des Reinforcement Learning (RL). Erfahren Sie, wie Agenten Feedback nutzen, um Aufgaben zu meistern, und sehen Sie, wie Ultralytics RL-Bildverarbeitungssysteme unterstützt.

Reinforcement Learning (RL) ist ein zielorientierter Teilbereich des maschinellen Lernens (ML), bei dem ein autonomes System, ein sogenannter Agent, lernt, Entscheidungen zu treffen, indem es Handlungen ausführt und Feedback aus seiner Umgebung erhält. Im Gegensatz zum überwachten Lernen, das auf statischen Datensätzen mit den richtigen Antworten basiert, lernen RL-Algorithmen durch einen dynamischen Prozess des Ausprobierens. Der Agent interagiert mit einer Simulation oder der realen Welt und beobachtet die Folgen seiner Handlungen, um zu bestimmen, welche Strategien langfristig die höchsten Belohnungen bringen. Dieser Ansatz ahmt das psychologische Konzept der operanten Konditionierung nach, bei dem das Verhalten durch positive Verstärkung (Belohnungen) und negative Verstärkung (Bestrafungen) im Laufe der Zeit geformt wird.

Kernkonzepte der RL-Schleife

Um zu verstehen, wie RL funktioniert, ist es hilfreich, es sich als einen kontinuierlichen Interaktionszyklus vorzustellen. Dieses Rahmenwerk wird mathematisch oft als Markov-Entscheidungsprozess (MDP) formalisiert, der die Entscheidungsfindung in Situationen strukturiert, in denen die Ergebnisse teilweise zufällig und teilweise vom Entscheidungsträger kontrolliert sind.

Die Hauptkomponenten dieses Lernkreislaufs umfassen:

  • KI-Agent: Die Instanz, die für das Lernen und Treffen von Entscheidungen verantwortlich ist. Sie nimmt die Umgebung wahr und ergreift Maßnahmen, um ihren kumulativen Erfolg zu maximieren.
  • Umgebung: Die Außenwelt, in der der Agent agiert. Dies kann ein komplexes Videospiel, eine Finanzmarktsimulation oder ein physisches Lager in der KI-Logistik sein.
  • Zustand: Eine Momentaufnahme oder Darstellung der aktuellen Situation. In visuellen Anwendungen umfasst dies häufig die Verarbeitung von Kamera-Feeds mithilfe von Computervision (CV), um detect und Hindernisse detect .
  • Aktion: Die spezifische Handlung oder Entscheidung, die der Agent trifft. Die Gesamtheit aller möglichen Handlungen wird als Aktionsraum bezeichnet.
  • Belohnung: Ein numerisches Signal, das nach einer Aktion von der Umgebung an den Agenten gesendet wird. Eine gut konzipierte Belohnungsfunktion weist positiven Aktionen positive Werte zu und nachteiligen Aktionen Strafen.
  • Richtlinie: Die Strategie oder Regel, die der Agent verwendet, um die nächste Aktion basierend auf dem aktuellen Zustand zu bestimmen. Algorithmen wie Q-Learning definieren, wie diese Richtlinie aktualisiert und optimiert wird.

Anwendungsfälle in der Praxis

Das verstärkende Lernen hat sich über die theoretische Forschung hinaus zu praktischen, wirkungsvollen Einsätzen in verschiedenen Branchen

  • Fortgeschrittene Robotik: Im Bereich der KI in der Robotik ermöglicht RL Maschinen das Erlernen komplexer motorischer Fähigkeiten, die schwer fest zu programmieren sind. Roboter können lernen, unregelmäßige Objekte zu greifen oder sich auf unebenem Gelände zu bewegen, indem sie in Physik-Engines wie NVIDIA Sim trainiert werden, bevor sie in der realen Welt eingesetzt werden.
  • Autonome Systeme: Autonome Fahrzeuge nutzen RL, um in unvorhersehbaren Verkehrssituationen Entscheidungen in Echtzeit zu treffen. Während Objekterkennungsmodelle Fußgänger und Verkehrszeichen identifizieren, helfen RL-Algorithmen dabei, sichere Fahrregeln für das Einfädeln in den Verkehr und das Navigieren an Kreuzungen festzulegen.
  • Strategische Optimierung: RL erlangte weltweite Aufmerksamkeit, als Systeme wie AlphaGoGoogle menschliche Weltmeister in komplexen Brettspielen besiegten. Über das Gaming hinaus optimieren diese Agenten die industrielle Logistik, beispielsweise durch die Steuerung von Kühlsystemen in Rechenzentren, um den Energieverbrauch zu senken.

Integration von Vision mit RL

In vielen modernen Anwendungen ist der „Zustand”, den ein Agent beobachtet, visuell. Hochleistungsmodelle wie YOLO26 fungieren als Wahrnehmungsschicht für RL-Agenten und wandeln Rohbilder in strukturierte Daten um. Diese verarbeiteten Informationen – wie beispielsweise der Standort und die Klasse von Objekten – werden zum Zustand, den die RL-Richtlinie zur Auswahl einer Aktion verwendet.

Das folgende Beispiel zeigt, wie man die ultralytics Paket zur Verarbeitung eines Umgebungsrahmens, das eine Zustandsdarstellung (z. B. Anzahl der Objekte) für eine theoretische RL-Schleife erstellt.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Unterscheidung verwandter Begriffe

Es ist wichtig, Reinforcement Learning von anderen Paradigmen des maschinellen Lernens zu unterscheiden:

  • vs. Überwachtes Lernen: Überwachtes Lernen erfordert einen sachkundigen externen Supervisor, der beschriftete Trainingsdaten bereitstellt (z. B. „dieses Bild enthält eine Katze“). Im Gegensatz dazu lernt RL aus den Konsequenzen seiner eigenen Handlungen ohne explizite Beschriftungen und entdeckt durch Erkundung optimale Wege.
  • vs. Unüberwachtes Lernen: Unüberwachtes Lernen konzentriert sich darauf, versteckte Strukturen oder Muster in unbeschrifteten Daten zu finden (wie z. B. die Clusterbildung von Kunden). RL unterscheidet sich davon, da es explizit zielorientiert ist und sich auf die Maximierung eines Belohnungssignals konzentriert, anstatt nur die Datenstruktur zu beschreiben.

Mit zunehmender Rechenleistung verfeinern Techniken wie Reinforcement Learning from Human Feedback (RLHF) die Lernprozesse von Agenten weiter und passen ihre Ziele besser an komplexe menschliche Werte und Sicherheitsstandards an . Forscher verwenden häufig standardisierte Umgebungen wie Gymnasium, um diese Algorithmen zu benchmarken und zu verbessern. Für Teams, die die für die Wahrnehmungsebenen dieser Agenten erforderlichen Datensätze verwalten möchten, bietet Ultralytics umfassende Tools für die Annotation und das Modellmanagement.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten