Glosario

Proceso de Decisión de Markov (MDP)

Descubre los Procesos de Decisión de Markov (MDP) y su papel en la IA, el aprendizaje por refuerzo, la robótica y la toma de decisiones sanitarias.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Un Proceso de Decisión de Markov (MDP) proporciona un marco matemático para modelar la toma de decisiones en escenarios en los que los resultados son en parte aleatorios y en parte controlables por un decisor, a menudo denominado agente. Es un concepto angular dentro de la Inteligencia Artificial (IA), especialmente fundamental en el campo del Aprendizaje por Refuerzo (AR). Los MDP permiten a los agentes aprender comportamientos óptimos mediante ensayo y error, interactuando con su entorno a lo largo del tiempo.

Componentes básicos de un MDP

Un MDP suele definirse por varios componentes clave:

  • Estados (S): Conjunto de posibles situaciones o configuraciones en las que puede estar el agente. Por ejemplo, la ubicación de un robot en una sala o el nivel de inventario de un producto.
  • Acciones (A): Conjunto de opciones de que dispone el agente en cada estado. Por ejemplo, las direcciones en las que puede moverse un robot o la cantidad de un producto que debe pedir.
  • Probabilidades de transición (P): La probabilidad de pasar de un estado a otro tras realizar una acción concreta. Refleja la incertidumbre del entorno. Por ejemplo, intentar avanzar puede tener éxito el 90% de las veces, pero fracasar el 10% (quedarse en el sitio o chocar contra un obstáculo).
  • Recompensa (R): Señal numérica que recibe el agente tras pasar de un estado a otro debido a una acción. Las recompensas indican la conveniencia inmediata de la transición. El objetivo suele ser maximizar la recompensa acumulada a lo largo del tiempo.
  • Política (π): La estrategia del agente, que dicta qué acción elegir en cada estado. El objetivo al resolver un MDP suele ser encontrar una política óptima que maximice la recompensa esperada a largo plazo. A menudo se utilizan técnicas de Aprendizaje Profundo por Refuerzo para encontrar dichas políticas en entornos complejos.

La propiedad de Markov

Una característica definitoria de los MDP es la Propiedad de Markov. Esta suposición establece que el estado y la recompensa futuros sólo dependen del estado actual y de la acción realizada, no de la secuencia de estados y acciones que condujeron al estado actual. En esencia, el estado actual contiene toda la información relevante del pasado para tomar una decisión óptima para el futuro. Esto simplifica considerablemente el proceso de modelización. Puedes encontrar más detalles en la página de Wikipedia sobre la Propiedad de Markov.

Aplicaciones en el mundo real

Los MDP proporcionan la base teórica para resolver muchos problemas de decisión secuenciales del mundo real:

  • Navegación robótica: Un robot que decide cómo moverse para llegar a un destino evitando obstáculos. Los estados son las posibles ubicaciones y orientaciones del robot, las acciones son órdenes de movimiento (avanzar, girar), las transiciones implican probabilidades de éxito del movimiento, y las recompensas pueden ser positivas por alcanzar el objetivo y negativas por colisiones o tiempo empleado. Esto se extiende a sistemas complejos como los Vehículos Autónomos.
  • Gestión de inventarios: Determinación de políticas de pedido óptimas para productos con demanda incierta. Los estados representan niveles de inventario, las acciones son cantidades de pedido, las transiciones dependen de la demanda estocástica de los clientes, y las recompensas equilibran los ingresos por ventas con los costes de pedido y mantenimiento. Esto es crucial para aplicaciones como la IA para una gestión más inteligente del inventario minorista. Puedes encontrar trabajos académicos que exploran los MDP en Investigación Operativa.
  • Juego: Agentes de IA que aprenden a jugar a juegos como el ajedrez o el Go, en los que el estado es la configuración del tablero, las acciones son movimientos legales y se dan recompensas por ganar la partida. El trabajo de DeepMind con AlphaGo demuestra el poder de la RL en estos dominios.

Relevancia en IA y Aprendizaje Automático

Los MDP formalizan la estructura del problema para la mayoría de las tareas de Aprendizaje por Refuerzo. A diferencia del Aprendizaje Supervisado (aprendizaje a partir de datos etiquetados) o del Aprendizaje No Supervisado (búsqueda de patrones), el RL se centra en el aprendizaje a través de la interacción y la retroalimentación (recompensas) para alcanzar un objetivo a largo plazo, lo que convierte a los MDP en el marco natural. Este paradigma es vital para entrenar agentes que necesitan tomar secuencias de decisiones en entornos dinámicos, lo que es cada vez más relevante en campos como la Visión por Computador (VC) para tareas que requieren percepción o interacción activas. El objetivo general dentro de esta rama del Aprendizaje Automático (AM ) suele ser optimizar la Precisión a largo plazo o el éxito de la tarea mediante la señal de recompensa.

Relación con otros conceptos

Aunque están relacionados con los modelos secuenciales como los Modelos de Markov Ocultos (HMM), los MDP son distintos porque implican que un agente elija activamente acciones para influir en las transiciones y maximizar las recompensas, mientras que los HMM suelen modelar sistemas en los que las transiciones de estado se producen basándose en probabilidades sin que un agente controle las acciones. La resolución de los MDP suele implicar técnicas como la Programación Dinámica (si el modelo es totalmente conocido) o algoritmos de RL como el aprendizaje Q y los métodos de gradiente de política cuando el modelo es desconocido. Estos métodos suelen basarse en la Ecuación de Bellman para relacionar el valor de un estado con los valores de los estados siguientes. Herramientas como OpenAI Gym (ahora Gymnasium) proporcionan entornos para desarrollar y probar agentes de RL, a menudo implementados utilizando marcos como PyTorch. La gestión de la formación y el despliegue de modelos tan complejos puede facilitarse mediante plataformas como Ultralytics HUB, que admite diversos flujos de trabajo de IA, incluidos los que implican modelos de última generación como Ultralytics YOLO. Para una comprensión completa, consulta recursos como el libro RL de Sutton y Barto.

Leer todo