Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF)
Descubra cómo el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) alinea la IA con los valores humanos. Explore sus componentes principales y su integración con Ultralytics .
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una técnica avanzada de aprendizaje automático que perfecciona los modelos de inteligencia artificial
incorporando la aportación directa de los seres humanos en el ciclo de entrenamiento. A diferencia del aprendizaje supervisado estándar,
que se basa únicamente en
conjuntos de datos estáticos etiquetados, el RLHF introduce un mecanismo de retroalimentación dinámica en el que los evaluadores humanos clasifican o califican los resultados del modelo
. Este proceso permite a la IA captar objetivos complejos, subjetivos o matizados, como la «utilidad»,
la «seguridad» o la «creatividad», que son difíciles de definir con una simple función matemática de pérdida.
El RLHF se ha convertido en una piedra angular en el desarrollo de los modernos
modelos de lenguaje grandes (LLM) y la
IA generativa, garantizando que los potentes modelos básicos se ajusten eficazmente a los valores humanos y a la intención del usuario.
Los componentes básicos de RLHF
El proceso RLHF sigue generalmente un proceso de tres pasos diseñado para salvar la brecha entre las capacidades predictivas en bruto
y el comportamiento alineado con el humano.
-
Ajuste fino supervisado (SFT): El flujo de trabajo suele comenzar con un
modelo base preentrenado. Los desarrolladores realizan un
ajuste fino inicial utilizando un conjunto de datos más pequeño y de alta calidad de
demostraciones (por ejemplo, pares de preguntas y respuestas escritas por expertos). Este paso establece una política de referencia, enseñando
al modelo el formato general y el tono que se espera para la tarea.
-
Entrenamiento del modelo de recompensa: Esta fase es la característica distintiva de RLHF. Los anotadores humanos revisan
múltiples resultados generados por el modelo para la misma entrada y los clasifican de mejor a peor. Este
esfuerzo de etiquetado de datos genera un conjunto de datos de
preferencias. Una red neuronal separada, llamada
modelo de recompensa, se entrena con estos datos comparativos para predecir una puntuación escalar que refleje el juicio humano. Las herramientas
disponibles en la Ultralytics pueden optimizar la gestión
de dichos flujos de trabajo de anotación.
-
Optimización del aprendizaje por refuerzo: Por último, el modelo original actúa como un
agente de IA dentro de un entorno de aprendizaje por refuerzo.
Utilizando el modelo de recompensa como guía, los algoritmos de optimización como la optimización de políticas proximales (PPO) ajustan los
parámetros del modelo para maximizar la recompensa esperada. Este paso alinea la política del modelo con las preferencias humanas aprendidas
, fomentando comportamientos útiles y seguros, al tiempo que desalienta los resultados tóxicos o sin sentido.
Aplicaciones en el mundo real
RLHF ha demostrado ser fundamental en el despliegue de sistemas de IA que requieren altos estándares de seguridad y una comprensión matizada de la
interacción humana.
-
IA conversacional y chatbots: La aplicación más destacada del RLHF es la de alinear los chatbots para que
sean útiles, inofensivos y honestos. Al penalizar los resultados sesgados, incorrectos desde el punto de vista factual o peligrosos, el RLHF
ayuda a mitigar las alucinaciones en los LLM y
reduce el riesgo de sesgo algorítmico. Esto
garantiza que los asistentes virtuales puedan rechazar instrucciones perjudiciales sin dejar de ser útiles para consultas legítimas.
-
Robótica y control físico: RLHF va más allá del texto y se extiende a la
IA en robótica, donde definir una función de recompensa perfecta
para tareas físicas complejas es todo un reto. Por ejemplo, un robot que aprende a navegar por un almacén abarrotado
puede recibir comentarios de supervisores humanos sobre qué trayectorias eran seguras y cuáles causaban interrupciones.
Estos comentarios refinan la política de control del robot de forma más eficaz que el simple
aprendizaje profundo por refuerzo basado
únicamente en la consecución de objetivos.
RLHF frente al aprendizaje por refuerzo estándar
Es útil distinguir el RLHF del aprendizaje por refuerzo tradicional
(RL) para comprender
su utilidad específica.
-
RL estándar: En entornos tradicionales, la función de recompensa suele estar codificada de forma rígida por el entorno.
Por ejemplo, en un videojuego, el entorno proporciona una señal clara (+1 por una victoria, -1 por una derrota). El agente
optimiza sus acciones dentro de este
proceso de decisión de Markov (MDP) definido.
-
RLHF: En muchos escenarios del mundo real, como escribir una historia creativa o conducir con educación,
el «éxito» es subjetivo. RLHF resuelve esto sustituyendo la recompensa codificada por un modelo de recompensa aprendido
derivado de las preferencias humanas. Esto permite optimizar conceptos abstractos como «calidad» o
«adecuación», que son imposibles de programar explícitamente.
Integración de la percepción con bucles de retroalimentación
En aplicaciones visuales, los agentes alineados con RLHF suelen basarse en
la visión por ordenador (CV) para percibir el estado de
su entorno antes de actuar. Un detector robusto, como
YOLO26, funciona como capa de percepción, proporcionando
observaciones estructuradas (por ejemplo, «obstáculo detectado a 3 metros») que la red de políticas utiliza para seleccionar una
acción.
El siguiente Python ilustra un concepto simplificado en el que un YOLO proporciona el estado del entorno. En
un bucle RLHF completo, la señal de «recompensa» provendría de un modelo entrenado con la retroalimentación humana sobre las
decisiones del agente basadas en estos datos de detección.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.
Al combinar potentes modelos de percepción con políticas perfeccionadas a través de la retroalimentación humana, los desarrolladores pueden crear sistemas que
no solo sean inteligentes, sino que también se ajusten rigurosamente a los
principios de seguridad de la IA. La investigación en curso sobre la
supervisión escalable, como la
IA constitucional,
sigue evolucionando en este campo, con el objetivo de reducir el cuello de botella de la anotación humana a gran escala, al tiempo que se mantiene un alto
rendimiento del modelo.