Aprendizado por Reforço a partir de Feedback Humano (RLHF)
Saiba como o Reinforcement Learning from Human Feedback (RLHF) alinha a IA com os valores humanos. Explore os seus componentes principais e a integração com Ultralytics .
A aprendizagem por reforço a partir do feedback humano (RLHF) é uma técnica avançada de aprendizagem automática que refina modelos de inteligência artificial
incorporando a contribuição humana direta no ciclo de treino. Ao contrário da aprendizagem supervisionada padrão,
que depende exclusivamente de
conjuntos de dados estáticos rotulados, a RLHF introduz um mecanismo de feedback dinâmico em que avaliadores humanos classificam ou pontuam os resultados do modelo
. Este processo permite que a IA capture objetivos complexos, subjetivos ou matizados — como «utilidade»,
«segurança» ou «criatividade» — que são difíceis de definir com uma função de perda matemática simples.
O RLHF tornou-se uma pedra angular no desenvolvimento de
grandes modelos de linguagem (LLMs) modernos e
IA generativa, garantindo que modelos básicos poderosos se alinhem efetivamente com os valores humanos e a intenção do utilizador.
Os componentes essenciais da RLHF
O processo RLHF geralmente segue um pipeline de três etapas projetado para preencher a lacuna entre as capacidades preditivas brutas
e o comportamento alinhado ao humano.
-
Ajuste fino supervisionado (SFT): O fluxo de trabalho normalmente começa com um
modelo básico pré-treinado. Os desenvolvedores realizam o ajuste fino inicial
usando um conjunto de dados menor e de alta qualidade de
demonstrações (por exemplo, pares de perguntas e respostas escritos por especialistas). Esta etapa estabelece uma política de base, ensinando
ao modelo o formato geral e o tom esperado para a tarefa.
-
Treinamento do modelo de recompensa: esta fase é a característica distintiva do RLHF. Anotadores humanos revisam
várias saídas geradas pelo modelo para a mesma entrada e as classificam da melhor para a pior. Esse
esforço de rotulagem de dados gera um conjunto de dados de
preferências. Uma rede neural separada, chamada
de modelo de recompensa, é treinada com esses dados comparativos para prever uma pontuação escalar que reflete o julgamento humano. As ferramentas
disponíveis na Ultralytics podem otimizar o gerenciamento
desses fluxos de trabalho de anotação.
-
Otimização da aprendizagem por reforço: Por fim, o modelo original atua como um
agente de IA dentro de um ambiente de aprendizagem por reforço.
Usando o modelo de recompensa como guia, algoritmos de otimização como a Otimização de Política Proximal (PPO) ajustam os
parâmetros do modelo para maximizar a recompensa esperada. Esta etapa alinha a política do modelo com as preferências humanas aprendidas
, incentivando comportamentos úteis e seguros, ao mesmo tempo que desencoraja resultados tóxicos ou sem sentido.
Aplicações no Mundo Real
A RLHF provou ser fundamental na implementação de sistemas de IA que exigem elevados padrões de segurança e uma compreensão matizada da
interação humana.
-
IA conversacional e chatbots: A aplicação mais proeminente do RLHF é alinhar os chatbots para que
sejam úteis, inofensivos e honestos. Ao penalizar resultados tendenciosos, factualmente incorretos ou perigosos, o RLHF
ajuda a mitigar alucinações em LLMs e
reduz o risco de viés algorítmico. Isso
garante que os assistentes virtuais possam recusar instruções prejudiciais, mantendo-se úteis para consultas legítimas.
-
Robótica e controlo físico: RLHF vai além do texto para
IA em robótica, onde definir uma função de recompensa perfeita
para tarefas físicas complexas é um desafio. Por exemplo, um robô que está a aprender a navegar num armazém lotado
pode receber feedback de supervisores humanos sobre quais trajetórias eram seguras e quais causavam interrupções.
Esse feedback refina a política de controlo do robô de forma mais eficaz do que o simples
aprendizado por reforço profundo baseado
exclusivamente na conclusão de objetivos.
RLHF vs. Aprendizagem por Reforço Padrão
É útil distinguir RLHF da aprendizagem por reforço tradicional
(RL) para compreender
a sua utilidade específica.
-
RL padrão: Em contextos tradicionais, a função de recompensa é frequentemente codificada pelo ambiente.
Por exemplo, num videojogo, o ambiente fornece um sinal claro (+1 por uma vitória, -1 por uma derrota). O agente
otimiza as suas ações dentro deste
Processo de Decisão de Markov (MDP) definido.
-
RLHF: Em muitos cenários do mundo real, como escrever uma história criativa ou conduzir educadamente,
o «sucesso» é subjetivo. O RLHF resolve isso substituindo a recompensa codificada por um modelo de recompensa aprendido
derivado das preferências humanas. Isso permite a otimização de conceitos abstratos como «qualidade» ou
«adequação», que são impossíveis de programar explicitamente.
Integrando a percepção com ciclos de feedback
Em aplicações visuais, os agentes alinhados com RLHF geralmente dependem da
visão computacional (CV) para perceber o estado do
seu ambiente antes de agir. Um detetor robusto, como o
YOLO26, funciona como a camada de percepção, fornecendo
observações estruturadas (por exemplo, «obstáculo detetado a 3 metros») que a rede de políticas usa para selecionar uma
ação.
Python a seguir ilustra um conceito simplificado em que um YOLO fornece o estado ambiental. Em
um ciclo RLHF completo, o sinal de «recompensa» viria de um modelo treinado com feedback humano sobre as
decisões do agente com base nesses dados de detecção.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
Ao combinar modelos de percepção poderosos com políticas refinadas por meio de feedback humano, os desenvolvedores podem construir sistemas que
não são apenas inteligentes, mas também rigorosamente alinhados com os
princípios de segurança da IA. Pesquisas contínuas sobre supervisão escalável,
como a
IA Constitucional,
continuam a evoluir neste campo, com o objetivo de reduzir o gargalo da anotação humana em grande escala, mantendo o alto
desempenho do modelo.