Descubre el aprendizaje por refuerzo, en el que los agentes optimizan las acciones mediante ensayo y error para maximizar las recompensas. ¡Explora conceptos, aplicaciones y ventajas!
El Aprendizaje por Refuerzo (AR) es un tipo de Aprendizaje Automático (AM ) en el que un agente inteligente aprende a tomar una secuencia de decisiones intentando maximizar una recompensa que recibe por sus acciones. A diferencia del aprendizaje supervisado, que aprende de ejemplos etiquetados, o del aprendizaje no supervisado, que encuentra patrones en datos no etiquetados, el RL aprende mediante ensayo y error interactuando con un entorno. El agente recibe retroalimentación en forma de recompensas o penalizaciones en función de las acciones que realiza, guiando su proceso de aprendizaje hacia la consecución de un objetivo concreto.
Varios componentes clave definen un sistema de Aprendizaje por Refuerzo:
Un reto fundamental en la RL es el equilibrio entre exploración y explotación: el agente debe equilibrar la exploración de nuevas acciones para descubrir recompensas potencialmente mayores (exploración) con la elección de acciones que se sabe que producen buenas recompensas (explotación).
El proceso de RL suele ser iterativo. El agente observa el estado actual del entorno, selecciona una acción basada en su política actual, realiza la acción y recibe una recompensa (o penalización) y el siguiente estado del entorno. Esta retroalimentación se utiliza para actualizar la política o la función de valor del agente, mejorando su toma de decisiones a lo largo del tiempo. Entre los algoritmos habituales de RL están los métodos Q-learning, SARSA y Policy Gradient, cada uno de los cuales emplea diferentes estrategias para aprender y actualizar la política. El Aprendizaje por Refuerzo Profundo (DRL) combina la RL con técnicas de aprendizaje profundo, utilizando redes neuronales (NN ) para aproximar políticas o funciones de valor, lo que permite a la RL abordar problemas con espacios de estado complejos y de alta dimensión, como imágenes o datos de sensores.
La RL difiere significativamente de otros paradigmas de ML:
La RL ha permitido avances en diversos ámbitos:
El aprendizaje por refuerzo es un componente crucial del panorama más amplio de la Inteligencia Artificial (IA), sobre todo para crear sistemas autónomos capaces de tomar decisiones complejas. Mientras que empresas como Ultralytics se especializan en modelos de IA de visión como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias mediante aprendizaje supervisado, las capacidades de percepción que proporcionan estos modelos suelen ser entradas (estados) esenciales para los agentes de RL. Por ejemplo, un robot podría utilizar un modelo de detección de objetos desplegado mediante Ultralytics HUB para comprender su entorno antes de que una política de RL decida su siguiente movimiento. La comprensión de la RL proporciona un contexto sobre cómo la percepción avanzada encaja en la construcción de sistemas inteligentes y autónomos, a menudo desarrollados utilizando marcos como PyTorch y probados en entornos de simulación como Gymnasium (antes OpenAI Gym). Muchas aplicaciones del mundo real implican integrar la percepción(Visión por Computador) con la toma de decisiones (RL).