Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Proceso de Decisión de Markov (MDP)

Explora los fundamentos de los procesos de decisión de Markov (MDP). Descubre cómo los MDP impulsan el aprendizaje por refuerzo y cómo Ultralytics proporciona datos de estado en tiempo real.

Un proceso de decisión de Markov (MDP) es un marco matemático utilizado para modelar la toma de decisiones en situaciones en las que los resultados son en parte aleatorios y en parte están bajo el control de quien toma la decisión. Es el modelo fundamental del aprendizaje por refuerzo (RL), ya que proporciona una forma estructurada para que un agente de IA interactúe con un entorno para lograr un objetivo específico. A diferencia del aprendizaje supervisado estándar, que se basa en conjuntos de datos estáticos etiquetados, un MDP se centra en la toma de decisiones secuenciales en las que las acciones actuales influyen en las posibilidades futuras.

Componentes básicos de un MDP

Para entender cómo funciona un MDP, resulta útil visualizarlo como un ciclo de interacción entre un agente y su entorno. Este ciclo se define mediante cinco componentes clave:

  • Estado: La situación o configuración actual del entorno. En los vehículos autónomos, el estado puede incluir la velocidad del coche, su ubicación y los obstáculos cercanos detectados por los sensores de visión artificial (CV).
  • Acción: Conjunto de todos los movimientos o elecciones posibles disponibles para el agente. A menudo se denomina espacio de acción, que puede ser discreto (por ejemplo, moverse a la izquierda, moverse a la derecha) o continuo (por ejemplo, ajustar el ángulo de dirección).
  • Probabilidad de transición: Define la probabilidad de pasar de un estado a otro después de realizar una acción específica. Tiene en cuenta la incertidumbre y la dinámica del mundo real, lo que distingue a los MDP de los sistemas deterministas.
  • Recompensa: Una señal numérica recibida después de cada acción. La función de recompensa es fundamental porque guía el comportamiento del agente: las recompensas positivas fomentan las acciones deseables, mientras que las recompensas negativas (penalizaciones) desalientan los errores.
  • Factor de descuento: valor que determina la importancia de las recompensas futuras en comparación con las inmediatas. Ayuda al agente a priorizar la planificación a largo plazo sobre la gratificación a corto plazo, un concepto fundamental para la optimización estratégica.

Aplicaciones en el mundo real

Los MDP actúan como motor de toma de decisiones detrás de muchas tecnologías avanzadas, permitiendo a los sistemas navegar por entornos complejos y dinámicos.

  • Control robótico: En la IA aplicada a la robótica, los MDP permiten a las máquinas aprender habilidades motoras complejas. Por ejemplo, un brazo robótico utiliza MDP para determinar la trayectoria óptima para recoger un objeto evitando colisiones. El estado son los ángulos de las articulaciones y la posición del objeto, derivados de la detección de objetos en 3D, y la recompensa se basa en la velocidad de agarre con éxito.
  • Gestión de inventario: Los minoristas utilizan los MDP para optimizar el inventario. En este caso, el estado representa los niveles de existencias actuales, las acciones son decisiones de reposición y las recompensas se calculan en función de los márgenes de beneficio menos los costes de almacenamiento y de agotamiento de existencias.
  • Tratamiento sanitario: En la medicina personalizada, los MDP ayudan a diseñar planes de tratamiento dinámicos. Al modelar las métricas de salud de los pacientes como estados y los medicamentos como acciones, los médicos pueden utilizar modelos predictivos para maximizar los resultados de salud a largo plazo de los pacientes.

Relación con el aprendizaje por refuerzo

Aunque están estrechamente relacionados, es importante distinguir entre un MDP y el aprendizaje por refuerzo. Un MDP es la formulación formal del problema, es decir, el modelo matemático del entorno. El aprendizaje por refuerzo es el método utilizado para resolver ese problema cuando no se conocen completamente las dinámicas internas (probabilidades de transición). Los algoritmos de RL, como el aprendizaje Q, interactúan con el MDP para aprender la mejor política mediante ensayo y error.

Observación visual en los MDP

En las aplicaciones modernas de IA, el «estado» de un MDP a menudo se deriva de datos visuales. Los modelos de percepción de alta velocidad actúan como los ojos del sistema, convirtiendo las imágenes sin procesar de la cámara en datos estructurados que el MDP puede procesar. Por ejemplo, Ultralytics puede proporcionar coordenadas de objetos en tiempo real, que sirven como entradas de estado para un agente de toma de decisiones.

El siguiente ejemplo muestra cómo extraer una representación de estado (cuadros delimitadores) de una imagen utilizando Python, que luego podría introducirse en una política MDP.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Al integrar modelos de visión robustos con marcos MDP, los desarrolladores pueden crear sistemas que no solo perciben el mundo , sino que también toman decisiones inteligentes y adaptativas dentro de él. Esta sinergia es esencial para el avance de los sistemas autónomos y la fabricación inteligente.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora