Glosario

Aprendizaje por Refuerzo

Descubre el aprendizaje por refuerzo, en el que los agentes optimizan las acciones mediante ensayo y error para maximizar las recompensas. ¡Explora conceptos, aplicaciones y ventajas!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Aprendizaje por Refuerzo (AR) es un tipo de Aprendizaje Automático (AM ) en el que un agente inteligente aprende a tomar una secuencia de decisiones intentando maximizar una recompensa que recibe por sus acciones. A diferencia del aprendizaje supervisado, que aprende de ejemplos etiquetados, o del aprendizaje no supervisado, que encuentra patrones en datos no etiquetados, el RL aprende mediante ensayo y error interactuando con un entorno. El agente recibe retroalimentación en forma de recompensas o penalizaciones en función de las acciones que realiza, guiando su proceso de aprendizaje hacia la consecución de un objetivo concreto.

Conceptos básicos

Varios componentes clave definen un sistema de Aprendizaje por Refuerzo:

  • Agente: La entidad que aprende o toma decisiones y que interactúa con el entorno.
  • Entorno: El sistema o mundo externo en el que opera el agente.
  • Estado: Representación de la situación o configuración actual del entorno percibida por el agente.
  • Acción: Decisión o movimiento que realiza el agente dentro del entorno.
  • Recompensa: Señal numérica recibida del entorno tras realizar una acción, que indica lo buena o mala que fue esa acción en un estado concreto. El objetivo del agente suele ser maximizar la recompensa acumulada a lo largo del tiempo.
  • Política: La estrategia o mapa que utiliza el agente para determinar la siguiente acción basándose en el estado actual. Es esencialmente lo que el agente aprende.
  • Función de Valor: Una predicción de las recompensas futuras esperadas que se pueden conseguir a partir de un estado determinado o realizando una acción específica en un estado determinado, siguiendo una política concreta.
  • Proceso de Decisión de Markov (MDP): Marco matemático utilizado habitualmente para modelar problemas de RL, que define las interacciones entre el agente y el entorno.

Un reto fundamental en la RL es el equilibrio entre exploración y explotación: el agente debe equilibrar la exploración de nuevas acciones para descubrir recompensas potencialmente mayores (exploración) con la elección de acciones que se sabe que producen buenas recompensas (explotación).

Cómo funciona el aprendizaje por refuerzo

El proceso de RL suele ser iterativo. El agente observa el estado actual del entorno, selecciona una acción basada en su política actual, realiza la acción y recibe una recompensa (o penalización) y el siguiente estado del entorno. Esta retroalimentación se utiliza para actualizar la política o la función de valor del agente, mejorando su toma de decisiones a lo largo del tiempo. Entre los algoritmos habituales de RL están los métodos Q-learning, SARSA y Policy Gradient, cada uno de los cuales emplea diferentes estrategias para aprender y actualizar la política. El Aprendizaje por Refuerzo Profundo (DRL) combina la RL con técnicas de aprendizaje profundo, utilizando redes neuronales (NN ) para aproximar políticas o funciones de valor, lo que permite a la RL abordar problemas con espacios de estado complejos y de alta dimensión, como imágenes o datos de sensores.

Comparación con otros paradigmas de aprendizaje

La RL difiere significativamente de otros paradigmas de ML:

  • Aprendizaje supervisado: Aprende a partir de un conjunto de datos que contiene ejemplos etiquetados (pares de entrada-salida). El objetivo es aprender una función de mapeo que prediga las salidas para las nuevas entradas. Algunos ejemplos son la clasificación de imágenes y la regresión. El RL aprende de la interacción y la retroalimentación (recompensas), no de respuestas correctas predefinidas.
  • Aprendizaje no supervisado: Aprende patrones y estructuras a partir de datos no etiquetados. Algunos ejemplos son la agrupación y la reducción dimensional. La RL está orientada a objetivos, aprendiendo una política para maximizar las recompensas, mientras que el aprendizaje no supervisado se centra en el descubrimiento de estructuras de datos.

Aplicaciones en el mundo real

La RL ha permitido avances en diversos ámbitos:

Relevancia en el ecosistema de la IA

El aprendizaje por refuerzo es un componente crucial del panorama más amplio de la Inteligencia Artificial (IA), sobre todo para crear sistemas autónomos capaces de tomar decisiones complejas. Mientras que empresas como Ultralytics se especializan en modelos de IA de visión como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias mediante aprendizaje supervisado, las capacidades de percepción que proporcionan estos modelos suelen ser entradas (estados) esenciales para los agentes de RL. Por ejemplo, un robot podría utilizar un modelo de detección de objetos desplegado mediante Ultralytics HUB para comprender su entorno antes de que una política de RL decida su siguiente movimiento. La comprensión de la RL proporciona un contexto sobre cómo la percepción avanzada encaja en la construcción de sistemas inteligentes y autónomos, a menudo desarrollados utilizando marcos como PyTorch y probados en entornos de simulación como Gymnasium (antes OpenAI Gym). Muchas aplicaciones del mundo real implican integrar la percepción(Visión por Computador) con la toma de decisiones (RL).

Leer todo