Glossário

Processo de Decisão de Markov (MDP)

Descobre os processos de decisão de Markov (MDP) e o seu papel na IA, na aprendizagem por reforço, na robótica e na tomada de decisões no domínio dos cuidados de saúde.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Processo de Decisão de Markov (MDP) é uma estrutura matemática para modelar a tomada de decisões em situações em que os resultados são parcialmente aleatórios e parcialmente sob o controlo de um decisor. É um conceito crucial na inteligência artificial e na aprendizagem automática, particularmente no domínio da aprendizagem por reforço, fornecendo uma abordagem estruturada para resolver problemas complexos de decisão sequencial. Os MDP são utilizados para formalizar problemas em que um agente interage com um ambiente, com o objetivo de escolher acções que maximizem uma recompensa cumulativa.

Definição

Um processo de decisão de Markov (MDP) é definido por um conjunto de estados, um conjunto de acções, probabilidades de transição e funções de recompensa. Formalmente, um MDP é um processo de controlo estocástico em tempo discreto. Fornece um quadro matemático para modelar a tomada de decisões em situações em que os resultados são parcialmente aleatórios e parcialmente sob o controlo de um decisor. Podes encontrar explicações matemáticas mais aprofundadas em recursos como a página da Wikipedia sobre o processo de decisão de Markov. A propriedade "Markov" é fundamental: o estado futuro depende apenas do estado e da ação actuais, não do historial de estados ou acções anteriores. Esta propriedade "sem memória" simplifica o problema, ao mesmo tempo que capta muitos cenários do mundo real.

Componentes principais de um MDP

  • Estados: Representa as possíveis situações ou configurações em que o agente pode estar. Por exemplo, num cenário de carro autónomo, os estados podem incluir a localização atual do carro, a velocidade e as condições de trânsito circundantes. No contexto da automatização de processos robóticos (RPA), um estado pode ser a fase atual de um processo de fluxo de trabalho.
  • Acções: Estas são as escolhas que um agente pode fazer em cada estado. Continuando com o exemplo do carro autónomo, as acções podem ser acelerar, desacelerar, virar à esquerda ou virar à direita. Para um chatbot, as acções podem ser respostas diferentes que pode dar a um input do utilizador.
  • Probabilidades de transição: Para cada par estado-ação, estas probabilidades definem a probabilidade de transição para cada estado seguinte possível. Como os MDPs envolvem estocasticidade, realizar uma ação em um estado não garante um resultado específico; em vez disso, leva a uma distribuição de probabilidade sobre os possíveis estados seguintes.
  • Funções de recompensa: Estas funções quantificam a recompensa imediata que um agente recebe após a transição para um novo estado. A recompensa pode ser positiva (desejável) ou negativa (indesejável, muitas vezes chamada de custo ou penalidade). Por exemplo, num jogo, ganhar pode ter uma grande recompensa positiva, enquanto perder pode ter uma recompensa negativa. Na afinação de hiperparâmetros para um modelo, a recompensa pode estar relacionada com a métrica de desempenho do modelo num conjunto de validação.

Relevância e aplicações

Os MDPs são fundamentais para a aprendizagem por reforço (RL), em que o objetivo é treinar um agente para tomar decisões óptimas num ambiente para maximizar a recompensa cumulativa. Os algoritmos de RL, como o Q-learning e o SARSA, são construídos com base no quadro dos MDP. Os MDPs são particularmente úteis em cenários em que:

  • A tomada de decisões é sequencial: As acções tomadas agora afectam os estados e as recompensas futuras.
  • A incerteza é inerente: Os resultados das acções nem sempre são previsíveis.
  • Um objetivo pode ser definido por recompensas: O objetivo é maximizar uma medida cumulativa de sucesso.

As aplicações reais dos MDPs incluem:

  • Robótica: Na robótica, os MDP podem ser utilizados para planear os movimentos, a navegação e as tarefas de manipulação dos robôs. Por exemplo, um MDP pode ajudar um robô a aprender a navegar num armazém de forma eficiente, evitando obstáculos e alcançando locais de destino, o que pode ser relevante na produção e na logística.
  • Cuidados de saúde: Os MDP podem modelar a tomada de decisões clínicas, como a determinação de estratégias de tratamento óptimas para os doentes. Podem ajudar a personalizar os planos de tratamento com base no estado do doente e a prever os resultados do tratamento, melhorando a IA nos cuidados de saúde. Por exemplo, os MDP podem ser utilizados para otimizar os ajustes de dosagem de medicamentos ao longo do tempo.

Conceitos relacionados

  • Aprendizagem por reforço (RL): A RL é um subcampo da aprendizagem automática centrado no treino de agentes para tomarem sequências de decisões. Os MDPs fornecem a base teórica para muitos algoritmos de RL. As técnicas de RL são frequentemente utilizadas para resolver MDPs quando as probabilidades de transição e as funções de recompensa são desconhecidas ou complexas.
Lê tudo