Glosario

Aprendizaje por Refuerzo

Descubre el poder del Aprendizaje por Refuerzo: un enfoque de aprendizaje automático en el que los agentes interactúan con los entornos para maximizar las recompensas. Más información

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El aprendizaje por refuerzo (RL) es un tipo de aprendizaje automático en el que un agente aprende a tomar una secuencia de decisiones interactuando con un entorno. El agente realiza acciones en este entorno y recibe información en forma de recompensas o penalizaciones. El objetivo es que el agente aprenda una estrategia, o política, que maximice la recompensa acumulada a lo largo del tiempo. Este proceso de aprendizaje se inspira en la psicología del comportamiento, donde el aprendizaje se produce por ensayo y error. A diferencia del aprendizaje supervisado, que se basa en datos etiquetados, o del aprendizaje no supervisado, que se centra en encontrar patrones en datos no etiquetados, el aprendizaje por refuerzo se rige por la dinámica de interacción entre el agente y su entorno.

Conceptos clave del aprendizaje por refuerzo

Varios conceptos básicos son fundamentales para comprender el aprendizaje por refuerzo:

  • Agente: La persona que aprende y toma decisiones y que interactúa con el entorno.
  • Entorno: El sistema externo con el que interactúa el agente. Presenta al agente un estado y recibe acciones del agente.
  • Estado: Representación del entorno en un momento determinado. Proporciona al agente la información necesaria para emprender una acción.
  • Acción: Movimiento o decisión del agente que afecta al entorno.
  • Recompensa: Retroalimentación del entorno que mide el éxito o el fracaso de las acciones del agente. El objetivo del agente es maximizar la recompensa total a lo largo del tiempo.
  • Política: Estrategia que emplea el agente para determinar la siguiente acción en función del estado actual. Puede ser determinista o estocástica.
  • Función de valor: Función que estima la recompensa acumulada esperada de estar en un estado concreto o de realizar una acción concreta en un estado.
  • Valor Q: El rendimiento esperado partiendo de un estado determinado, tomando una acción específica y siguiendo una política concreta.

Relevancia y aplicaciones del aprendizaje por refuerzo

El aprendizaje por refuerzo ha atraído una gran atención debido a su capacidad para resolver problemas complejos de toma de decisiones que antes eran intratables. Su relevancia abarca varios dominios, lo que demuestra su versatilidad y potencia. Por ejemplo, en los vehículos autónomos, el RL se puede utilizar para entrenar a los vehículos a navegar por las carreteras, tomar decisiones en el tráfico y optimizar las rutas. En sanidad, los algoritmos de RL pueden personalizar los planes de tratamiento basándose en las respuestas de los pacientes y optimizar las operaciones hospitalarias.

Ejemplos reales de aprendizaje por refuerzo

Juego: Uno de los ejemplos más destacados de RL se encuentra en el campo del juego. AlphaGo de DeepMind, una IA que derrotó a un campeón mundial en el juego del Go, utilizó el aprendizaje por refuerzo para dominar el juego. Del mismo modo, AlphaZero consiguió un rendimiento sobrehumano en ajedrez, shogi y Go, demostrando el poder de la RL para dominar juegos de estrategia complejos. Más información sobre la IA en los videojuegos en el blog Ultralytics .

Robótica: El aprendizaje por refuerzo se utiliza ampliamente en robótica para tareas como el control, la navegación y la manipulación de robots. Por ejemplo, los robots pueden aprender a caminar, agarrar objetos y realizar tareas complejas mediante ensayo y error, guiados por recompensas. Esto resulta especialmente útil en escenarios en los que la programación explícita es un reto. Explora la integración de la visión por ordenador en la robótica para obtener más información.

Distinguir el aprendizaje por refuerzo de los términos relacionados

Aunque el aprendizaje por refuerzo es una técnica poderosa, es esencial distinguirlo de otros paradigmas de aprendizaje automático:

  • Aprendizaje supervisado: En el aprendizaje supervisado, los modelos se entrenan en conjuntos de datos etiquetados, en los que se conoce la salida correcta para cada entrada. En cambio, el aprendizaje por refuerzo implica el aprendizaje a partir de recompensas y penalizaciones sin etiquetas explícitas. Explora el aprendizaje supervisado con más detalle.
  • Aprendizaje no supervisado: El aprendizaje no supervisado trata con datos no etiquetados, con el objetivo de descubrir patrones y estructuras subyacentes. El aprendizaje por refuerzo, en cambio, se centra en el aprendizaje de acciones óptimas mediante la interacción con un entorno. Más información sobre el aprendizaje no supervisado.

Tecnologías y herramientas en el aprendizaje por refuerzo

Varias tecnologías y marcos apoyan el desarrollo y la implantación de modelos de aprendizaje por refuerzo. PyTorch y TensorFlow son marcos populares de aprendizaje profundo que proporcionan herramientas para construir y entrenar agentes de RL. Además, entornos como OpenAI Gym ofrecen entornos estandarizados para entrenar y probar algoritmos de RL. Ultralytics también proporciona soluciones de vanguardia en visión por ordenador, que pueden integrarse con técnicas de aprendizaje por refuerzo. Por ejemplo, los modelos de Ultralytics YOLO pueden utilizarse para tareas de detección de objetos dentro de un marco de RL. Más información sobre el despliegue de modelos en la página Ultralytics HUB.

Leer todo