Glosario

Aprendizaje por Refuerzo

Explora el Aprendizaje por Refuerzo: Transforma la IA con toma de decisiones autónoma utilizando conceptos y aplicaciones de RL en robótica, juegos e industria.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El aprendizaje por refuerzo (RL) es un subcampo del aprendizaje automático en el que un agente aprende a tomar decisiones realizando acciones en un entorno para alcanzar determinados objetivos. A diferencia del aprendizaje supervisado, en el que el modelo aprende de un conjunto de datos etiquetados, el aprendizaje por refuerzo se basa en un sistema de recompensas y penalizaciones para guiar al agente hacia un comportamiento óptimo.

Cómo funciona el aprendizaje por refuerzo

En el aprendizaje por refuerzo, el agente interactúa con el entorno en pasos temporales discretos. En cada paso, el agente recibe una retroalimentación en forma de recompensa, que es un valor numérico. El objetivo es maximizar la recompensa acumulada a lo largo del tiempo. El agente elige las acciones basándose en una política, que puede ser determinista o estocástica. Con el tiempo, la política se mejora a medida que el agente aprende de las consecuencias de sus acciones.

Los elementos clave de un sistema de RL son

  • Agente: El que aprende o toma decisiones.
  • Entorno: Todo aquello con lo que interactúa el agente.
  • Acciones: Todos los movimientos posibles que puede hacer el agente.
  • Recompensas: Retroalimentación del entorno para evaluar las acciones.
  • Estado: Representación de la situación actual del entorno.
  • Política: Estrategia que emplea el agente para determinar acciones en función del estado actual.

Conceptos importantes de VR

  • Función de valor: Estima la recompensa acumulada esperada de un determinado estado o par estado-acción.
  • Aprendizaje Q: Un popular algoritmo de RL en el que el agente aprende directamente el valor de las acciones.
  • Exploración vs. Explotación: Equilibrar la necesidad de explorar nuevas estrategias y explotar las que ya tienen éxito.
  • Aprendizaje por Diferencias Temporales: Combina ideas de los métodos de Montecarlo y de la programación dinámica.

Distinguir RL de términos afines

El aprendizaje por refuerzo difiere del aprendizaje supervisado, en el que el modelo aprende a partir de pares de entrada-salida. En cambio, el RL hace hincapié en el aprendizaje a partir de la interacción con el entorno. También es diferente del aprendizaje no supervisado, ya que no se dispone de etiquetas explícitas para la retroalimentación de recompensa.

Aplicaciones del aprendizaje por refuerzo

Coches autónomos

El aprendizaje por refuerzo es crucial en el desarrollo de IA para coches autoconducidos. Los algoritmos de RL ayudan a estos vehículos a aprender estrategias de conducción óptimas a través de entornos simulados antes de las pruebas físicas.

Robótica

La RL permite a los robots aprender tareas complejas por ensayo y error. Por ejemplo, los robots de los almacenes pueden aprender a manipular diversos objetos mediante el aprendizaje por refuerzo, aumentando la eficacia y la precisión.

Juego

La RL se ha aplicado famosamente en los juegos, donde los agentes aprenden a jugar y dominar juegos como el Go y el ajedrez, como demostró AlphaGo de DeepMind.

RL en Empresas e Industria

El aprendizaje por refuerzo puede optimizar operaciones como la gestión de inventarios y la logística. En Ultralytics, los sistemas basados en RL ayudan a tomar decisiones basadas en datos para mejorar la eficiencia y la rentabilidad de las cadenas de suministro.

Recursos para seguir explorando

El aprendizaje por refuerzo destaca como un método robusto para desarrollar sistemas inteligentes capaces de tomar decisiones de forma autónoma, lo que lo convierte en una piedra angular de los avances en inteligencia artificial y aprendizaje automático.

Leer todo