Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Processo de Decisão de Markov (MDP)

Explore os fundamentos dos Processos de Decisão de Markov (MDP). Saiba como os MDPs impulsionam a aprendizagem por reforço e como Ultralytics fornece dados de estado em tempo real.

Um Processo de Decisão de Markov (MDP) é uma estrutura matemática usada para modelar a tomada de decisões em situações em que os resultados são parcialmente aleatórios e parcialmente sob o controlo de um tomador de decisões. É o modelo fundamental para a aprendizagem por reforço (RL), fornecendo uma maneira estruturada para um agente de IA interagir com um ambiente para atingir um objetivo específico. Ao contrário da aprendizagem supervisionada padrão, que depende de conjuntos de dados estáticos rotulados, um MDP concentra-se na tomada de decisões sequenciais, em que as ações atuais influenciam as possibilidades futuras.

Componentes principais de um MDP

Para entender como um MDP funciona, é útil visualizá-lo como um ciclo de interação entre um agente e o seu ambiente. Esse ciclo é definido por cinco componentes principais:

  • Estado: A situação ou configuração atual do ambiente. Em veículos autónomos, o estado pode incluir a velocidade do carro, a localização e os obstáculos próximos detetados pelos sensores de visão computacional (CV).
  • Ação: O conjunto de todos os movimentos ou escolhas possíveis disponíveis para o agente. Isso é frequentemente referido como o espaço de ação, que pode ser discreto (por exemplo, mover para a esquerda, mover para a direita) ou contínuo (por exemplo, ajustar o ângulo de direção).
  • Probabilidade de transição: define a probabilidade de passar de um estado para outro após tomar uma ação específica. Ela leva em conta a incerteza e a dinâmica do mundo real, distinguindo os MDPs dos sistemas determinísticos.
  • Recompensa: Um sinal numérico recebido após cada ação. A função de recompensa é fundamental porque orienta o comportamento do agente — recompensas positivas incentivam ações desejáveis, enquanto recompensas negativas (penalidades) desencorajam erros.
  • Fator de desconto: um valor que determina a importância das recompensas futuras em comparação com as imediatas. Ajuda o agente a priorizar o planeamento de longo prazo em detrimento da gratificação de curto prazo, um conceito central para a otimização estratégica.

Aplicações no Mundo Real

Os MDPs atuam como o motor de tomada de decisões por trás de muitas tecnologias avançadas, permitindo que os sistemas naveguem em ambientes complexos e dinâmicos.

  • Controlo robótico: Na IA em robótica, os MDPs permitem que as máquinas aprendam habilidades motoras complexas. Por exemplo, um braço robótico usa MDPs para determinar o caminho ideal para pegar um objeto, evitando colisões. O estado é o ângulo das articulações e a posição do objeto, derivados da detecção 3D do objeto, e a recompensa é baseada na velocidade de preensão bem-sucedida.
  • Gestão de inventário: os retalhistas utilizam os MDPs para otimizar o inventário. Aqui, o estado representa os níveis atuais de stock, as ações são decisões de reabastecimento e as recompensas são calculadas com base nas margens de lucro menos os custos de armazenamento e falta de stock.
  • Tratamento de saúde: Na medicina personalizada, os MDPs ajudam a conceber planos de tratamento dinâmicos. Ao modelar os indicadores de saúde dos pacientes como estados e os medicamentos como ações, os médicos podem usar modelagem preditiva para maximizar os resultados de saúde a longo prazo dos pacientes.

Relação com a aprendizagem por reforço

Embora intimamente relacionados, é importante distinguir entre um MDP e a aprendizagem por reforço. Um MDP é a declaração formal do problema— o modelo matemático do ambiente. A aprendizagem por reforço é o método usado para resolver esse problema quando a dinâmica interna (probabilidades de transição) não é totalmente conhecida. Algoritmos de RL, como o Q-learning, interagem com o MDP para aprender a melhor política por meio de tentativa e erro.

Observação visual em MDPs

Nas aplicações modernas de IA, o «estado» de um MDP é frequentemente derivado de dados visuais. Modelos de perceção de alta velocidade atuam como os olhos do sistema, convertendo imagens brutas da câmara em dados estruturados que o MDP pode processar. Por exemplo, Ultralytics pode fornecer coordenadas de objetos em tempo real, que servem como entradas de estado para um agente de tomada de decisão.

O exemplo a seguir demonstra como extrair uma representação de estado (caixas delimitadoras) de uma imagem usando Python, que poderia então ser alimentada em uma política MDP.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

Ao integrar modelos de visão robustos com estruturas MDP, os programadores podem construir sistemas que não só percebem o mundo, mas também tomam decisões inteligentes e adaptativas dentro dele. Essa sinergia é essencial para o avanço de sistemas autónomos e fabricação inteligente.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora