Glosario

Aprendizaje por Refuerzo

Descubre el aprendizaje por refuerzo, en el que los agentes optimizan las acciones mediante ensayo y error para maximizar las recompensas. ¡Explora conceptos, aplicaciones y ventajas!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Aprendizaje por Refuerzo (RL) es un área distinta dentro del Aprendizaje Automático (ML) en la que un agente aprende a tomar decisiones realizando acciones en un entorno para conseguir un objetivo concreto. A diferencia de otros paradigmas de ML, a los agentes de RL no se les dice explícitamente qué acciones deben realizar. En su lugar, aprenden mediante ensayo y error, recibiendo retroalimentación en forma de recompensas o penalizaciones en función de sus acciones. El objetivo fundamental del agente es aprender una estrategia, conocida como política, que maximice su recompensa acumulada a lo largo del tiempo.

Conceptos básicos del aprendizaje por refuerzo

Comprender el RL implica varios componentes clave:

  • Agente: El aprendiz o decisor que interactúa con el entorno.
  • Entorno: El mundo o sistema externo con el que interactúa el agente. Proporciona información al agente.
  • Estado: Representación de la situación o configuración actual del entorno. En las aplicaciones de Visión por Ordenador (VC ), el estado puede derivarse de los datos de la imagen.
  • Acción: Movimiento o decisión del agente que influye en el estado del entorno.
  • Recompensa: Señal numérica de retroalimentación procedente del entorno que indica lo buena o mala que ha sido la última acción del agente en relación con el objetivo.
  • Política: La estrategia o mapa que utiliza el agente para determinar la siguiente acción basándose en el estado actual. El objetivo de la RL es encontrar la política óptima.

Cómo funciona el aprendizaje por refuerzo

El proceso de RL es iterativo. El agente observa el estado actual del entorno, selecciona una acción basada en su política actual y realiza esa acción. El entorno pasa a un nuevo estado y proporciona una señal de recompensa al agente. El agente utiliza esta señal de recompensa para actualizar su política, con el objetivo de recibir más recompensas en el futuro. Un aspecto crítico de este proceso es el equilibrio entre la exploración (probar nuevas acciones para descubrir recompensas potencialmente mejores) y la explotación (utilizar acciones conocidas que proporcionan grandes recompensas). Este bucle de aprendizaje suele formalizarse mediante Procesos de Decisión de Markov (MDP).

Comparación con otros tipos de aprendizaje automático

RL difiere significativamente de otros paradigmas primarios de ML:

  • Aprendizaje supervisado: Aprende a partir de conjuntos de datos etiquetados en los que se proporciona la salida correcta para cada entrada. El RL aprende de señales de recompensa sin etiquetas explícitas de acción correcta.
  • Aprendizaje no supervisado: Encuentra patrones y estructuras en datos no etiquetados. El RL se centra en el aprendizaje dirigido por objetivos mediante la interacción y la retroalimentación.

Aunque las técnicas del Aprendizaje Profundo (AD), como el uso de Redes Neuronales (RN), se emplean a menudo dentro del RL (conocido como Aprendizaje Profundo por Refuerzo) para manejar espacios de estado complejos (como imágenes) y aproximar políticas o funciones de valor, el mecanismo fundamental de aprendizaje basado en recompensas sigue siendo distinto.

Aplicaciones en el mundo real

La RL ha demostrado un éxito notable en diversos dominios complejos:

  1. Juego: Los agentes de RL han conseguido un rendimiento sobrehumano en juegos complejos como el Go(AlphaGo de DeepMind) y diversos videojuegos(OpenAI Five en Dota 2). Estos agentes aprenden estrategias intrincadas a través del autojuego, superando con creces las capacidades humanas. Esta capacidad se explora en La IA en los videojuegos.
  2. Robótica: La RL se utiliza para entrenar a los robots a realizar tareas como la locomoción, la manipulación de objetos y el ensamblaje. Los robots pueden aprender habilidades motoras complejas en entornos simulados o directamente mediante la interacción con el mundo real, adaptándose a circunstancias imprevistas. Puedes obtener más información sobre Comprender la integración de la robótica.
  3. Vehículos autónomos: Los algoritmos de RL pueden utilizarse para optimizar las políticas de conducción, como la toma de decisiones para cambiar de carril, incorporarse o navegar por intersecciones, contribuyendo a los avances que se tratan en La IA en los coches autónomos.
  4. Sistemas de recomendación: La RL puede personalizar las recomendaciones aprendiendo las preferencias del usuario basándose en las interacciones y los comentarios a lo largo del tiempo, adaptándose dinámicamente a los gustos cambiantes. Más información sobre los sistemas de recomendación.

Aprendizaje por Refuerzo y Visión por Ordenador

En muchas aplicaciones de RL del mundo real, sobre todo en robótica y sistemas autónomos, la Visión por Computador (VC) desempeña un papel crucial. Modelos como Ultralytics YOLO pueden procesar entradas visuales (por ejemplo, imágenes de cámaras) para extraer información relevante sobre el entorno, formando la representación del "estado" utilizada por el agente de RL. Esto permite a los agentes percibir su entorno y tomar decisiones informadas basándose en datos visuales. A menudo se utilizan herramientas como OpenAI Gym y simuladores especializados para entrenar a estos agentes RL basados en la visión. Aunque los modelos Ultralytics se centran principalmente en tareas de percepción mediante aprendizaje supervisado, sus resultados pueden servir como entradas vitales para sistemas de RL que controlan agentes físicos o navegan por entornos visuales complejos. El entrenamiento y despliegue de sistemas tan complejos puede gestionarse mediante plataformas como Ultralytics HUB.

Para una comprensión básica de los conceptos de RL, son muy recomendables recursos como los capítulos introductorios del libro de Sutton y Barto sobre Aprendizaje por Refuerzo.

Leer todo