Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Reinforcement Learning from Human Feedback (RLHF)

Erfahren Sie, wie Reinforcement Learning from Human Feedback (RLHF) KI mit menschlichen Werten in Einklang bringt. Entdecken Sie die Kernkomponenten und die Integration mit Ultralytics .

Reinforcement Learning from Human Feedback (RLHF) ist eine fortschrittliche Technik des maschinellen Lernens, die Modelle der künstlichen Intelligenz verfeinert, indem sie direkte menschliche Eingaben in den Trainingszyklus einbezieht. Im Gegensatz zum standardmäßigen überwachten Lernen, das sich ausschließlich auf statische, beschriftete Datensätze stützt, führt RLHF einen dynamischen Feedback-Mechanismus ein, bei dem menschliche Bewerter die Ergebnisse des Modells einstufen oder bewerten . Dieser Prozess ermöglicht es der KI, komplexe, subjektive oder nuancierte Ziele zu erfassen – wie „Hilfreichsein“, „Sicherheit“ oder „Kreativität“ –, die mit einer einfachen mathematischen Verlustfunktion nur schwer zu definieren sind. RLHF ist zu einem Eckpfeiler in der Entwicklung moderner großer Sprachmodelle (LLMs) und generativer KI geworden und stellt sicher, dass leistungsstarke Basismodelle effektiv mit menschlichen Werten und der Absicht der Nutzer übereinstimmen.

Die Kernkomponenten von RLHF

Der RLHF-Prozess folgt im Allgemeinen einem dreistufigen Ablauf, der darauf ausgelegt ist, die Lücke zwischen rohen Vorhersagefähigkeiten und menschlich orientiertem Verhalten zu schließen.

  1. Supervised Fine-Tuning (SFT): Der Arbeitsablauf beginnt in der Regel mit einem vortrainierten Grundlagenmodell. Entwickler führen eine erste Feinabstimmung anhand eines kleineren, hochwertigen Datensatzes mit Demonstrationen durch (z. B. von Experten verfasste Frage-Antwort-Paare). In diesem Schritt wird eine Basisrichtlinie festgelegt, die dem Modell das für die Aufgabe erwartete allgemeine Format und den Tonfall vermittelt.
  2. Belohnungsmodell-Training: Diese Phase ist das charakteristische Merkmal von RLHF. Menschliche Annotatoren überprüfen mehrere vom Modell für dieselbe Eingabe generierte Ergebnisse und ordnen sie von best bis schlecht. Diese Datenkennzeichnung erzeugt einen Datensatz mit Präferenzen. Ein separates neuronales Netzwerk, das sogenannte Belohnungsmodell, wird anhand dieser Vergleichsdaten trainiert, um eine skalare Punktzahl vorherzusagen, die das menschliche Urteil widerspiegelt. Die auf der Ultralytics verfügbaren Tools können die Verwaltung solcher Annotations-Workflows optimieren.
  3. Optimierung durch bestärkendes Lernen: Schließlich fungiert das ursprüngliche Modell als KI-Agent innerhalb einer Umgebung für bestärkendes Lernen. Anhand des Belohnungsmodells als Leitfaden passen Optimierungsalgorithmen wie Proximal Policy Optimization (PPO) die Parameter des Modells an, um die erwartete Belohnung zu maximieren. Dieser Schritt gleicht die Strategie des Modells an die erlernten menschlichen Präferenzen an und fördert hilfreiche und sichere Verhaltensweisen, während schädliche oder unsinnige Ergebnisse unterbunden werden.

Anwendungsfälle in der Praxis

RLHF hat sich als entscheidend für den Einsatz von KI-Systemen erwiesen, die hohe Sicherheitsstandards und ein differenziertes Verständnis der menschlichen Interaktion erfordern.

  • Konversations-KI und Chatbots: Die bekannteste Anwendung von RLHF ist die Ausrichtung von Chatbots, damit sie hilfreich, harmlos und ehrlich sind. Durch die Bestrafung von Ausgabewerten, die voreingenommen, sachlich falsch oder gefährlich sind, hilft RLHF dabei, Halluzinationen in LLMs zu mildern und das Risiko algorithmischer Verzerrungen zu verringern. Dadurch wird sichergestellt, dass virtuelle Assistenten schädliche Anweisungen ablehnen können, während sie für legitime Anfragen weiterhin nützlich bleiben.
  • Robotik und physikalische Steuerung: RLHF geht über Text hinaus und erstreckt sich auf KI in der Robotik, wo die Definition einer perfekten Belohnungsfunktion für komplexe physikalische Aufgaben eine Herausforderung darstellt. Ein Roboter, der beispielsweise lernt, sich in einem überfüllten Lagerhaus zu bewegen, kann von menschlichen Aufsichtspersonen Feedback darüber erhalten, welche Bewegungsbahnen sicher waren und welche zu Störungen geführt haben. Dieses Feedback verfeinert die Steuerungsrichtlinien des Roboters effektiver als einfaches tiefes Verstärkungslernen, das ausschließlich auf der Zielerreichung basiert.

RLHF vs. Standard-Verstärkungslernen

Es ist hilfreich, RLHF vom traditionellen verstärkenden Lernen (RL) zu unterscheiden, um seinen spezifischen Nutzen zu verstehen.

  • Standard-RL: In traditionellen Umgebungen ist die Belohnungsfunktion oft fest in der Umgebung programmiert. In einem Videospiel beispielsweise gibt die Umgebung ein klares Signal (+1 für einen Sieg, -1 für eine Niederlage). Der Agent optimiert seine Handlungen innerhalb dieses definierten Markov-Entscheidungsprozesses (MDP).
  • RLHF: In vielen realen Szenarien, wie dem Schreiben einer kreativen Geschichte oder dem höflichen Autofahren, ist „Erfolg“ subjektiv. RLHF löst dieses Problem, indem es die fest programmierte Belohnung durch ein gelerntes Belohnungsmodell ersetzt, das aus menschlichen Präferenzen abgeleitet ist. Dies ermöglicht die Optimierung abstrakter Konzepte wie „Qualität“ oder „Angemessenheit“, die sich nicht explizit programmieren lassen.

Integration von Wahrnehmung mit Rückkopplungsschleifen

In visuellen Anwendungen stützen sich RLHF-ausgerichtete Agenten häufig auf Computervision (CV), um den Zustand ihrer Umgebung wahrzunehmen, bevor sie handeln. Ein robuster Detektor wie YOLO26 fungiert als Wahrnehmungsschicht und liefert strukturierte Beobachtungen (z. B. „Hindernis in 3 Metern Entfernung erkannt”), die das Policy-Netzwerk zur Auswahl einer Aktion verwendet.

Das folgende Python veranschaulicht ein vereinfachtes Konzept, bei dem ein YOLO den Umgebungszustand bereitstellt. In einer vollständigen RLHF-Schleife würde das „Belohnungssignal” von einem Modell kommen, das anhand von menschlichem Feedback zu den Entscheidungen des Agenten auf der Grundlage dieser Erkennungsdaten trainiert wurde.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Durch die Kombination leistungsstarker Wahrnehmungsmodelle mit Richtlinien, die durch menschliches Feedback verfeinert wurden, können Entwickler Systeme erstellen, die nicht nur intelligent sind, sondern auch streng an den Sicherheitsprinzipien für KI ausgerichtet sind. Laufende Forschungen zu skalierbarer Überwachung, wie beispielsweise Constitutional AI, treiben die Entwicklung in diesem Bereich weiter voran, mit dem Ziel, den Engpass bei der groß angelegten menschlichen Annotation zu verringern und gleichzeitig eine hohe Modellleistung aufrechtzuerhalten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten