Glossário

Processo de Decisão de Markov (MDP)

Descobre os processos de decisão de Markov (MDP) e o seu papel na IA, na aprendizagem por reforço, na robótica e na tomada de decisões no domínio dos cuidados de saúde.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Um Processo de Decisão de Markov (MDP) fornece uma estrutura matemática para modelar a tomada de decisões em cenários em que os resultados são parcialmente aleatórios e parcialmente controláveis por um decisor, muitas vezes referido como um agente. É um conceito fundamental no âmbito da Inteligência Artificial (IA), especialmente fundamental para o campo da Aprendizagem por Reforço (RL). Os MDP permitem que os agentes aprendam comportamentos óptimos através de tentativa e erro, interagindo com o seu ambiente ao longo do tempo.

Componentes principais de um MDP

Um MDP é tipicamente definido por vários componentes chave:

  • Estados (S): Um conjunto de situações ou configurações possíveis em que o agente pode estar. Por exemplo, a localização de um robô numa sala ou o nível de inventário de um produto.
  • Acções (A): Um conjunto de escolhas disponíveis para o agente em cada estado. Por exemplo, as direcções em que um robô se pode deslocar ou a quantidade de um produto a encomendar.
  • Probabilidades de transição (P): A probabilidade de passar de um estado para outro depois de tomar uma ação específica. Reflecte a incerteza do ambiente. Por exemplo, tentar avançar pode ser bem sucedido 90% das vezes mas falhar 10% (ficar no mesmo sítio ou bater num obstáculo).
  • Recompensas (R): Um sinal numérico recebido pelo agente após a transição de um estado para outro devido a uma ação. As recompensas indicam a conveniência imediata da transição. Normalmente, o objetivo é maximizar a recompensa acumulada ao longo do tempo.
  • Política (π): A estratégia do agente, que determina a ação a escolher em cada estado. O objetivo na resolução de um MDP é normalmente encontrar uma política óptima que maximize a recompensa esperada a longo prazo. As técnicas da Aprendizagem Profunda por Reforço são frequentemente utilizadas para encontrar essas políticas em ambientes complexos.

A propriedade de Markov

Uma caraterística que define os MDPs é a propriedade de Markov. Este pressuposto estabelece que o estado futuro e a recompensa dependem apenas do estado atual e da ação tomada, e não da sequência de estados e acções que conduziram ao estado atual. Em essência, o estado atual contém toda a informação relevante do passado para tomar uma decisão óptima para o futuro. Isto simplifica significativamente o processo de modelação. Para mais informações, consulta a página da Wikipedia sobre Propriedades de Markov.

Aplicações no mundo real

Os MDP constituem a base teórica para a resolução de muitos problemas de decisão sequenciais do mundo real:

  • Navegação robótica: Um robô que decide como se mover para atingir um destino alvo, evitando obstáculos. Os estados são as localizações e orientações possíveis do robô, as acções são comandos de movimento (avançar, virar), as transições envolvem probabilidades de um movimento bem sucedido e as recompensas podem ser positivas para atingir o objetivo e negativas para colisões ou tempo gasto. Isto estende-se a sistemas complexos como os veículos autónomos.
  • Gestão de stocks: Determinação de políticas de encomenda óptimas para produtos com procura incerta. Os estados representam os níveis de inventário, as acções são as quantidades de encomenda, as transições dependem da procura estocástica do cliente e as recompensas equilibram as receitas das vendas com os custos de encomenda e de detenção. Isto é crucial para aplicações como a IA para uma gestão mais inteligente do inventário de retalho. Podes encontrar trabalhos académicos que exploram os MDP na Investigação Operacional.
  • Jogar jogos: Agentes de IA que aprendem a jogar jogos como xadrez ou Go, onde o estado é a configuração do tabuleiro, as acções são movimentos legais e são dadas recompensas por ganhar o jogo. O trabalho da DeepMind no AlphaGo mostra o poder da RL nestes domínios.

Relevância na IA e na aprendizagem automática

Os MDPs formalizam a estrutura do problema para a maioria das tarefas de Aprendizagem por Reforço. Ao contrário da Aprendizagem Supervisionada (aprendizagem a partir de dados rotulados) ou da Aprendizagem Não Supervisionada (descoberta de padrões), a Aprendizagem por Reforço centra-se na aprendizagem através da interação e do feedback (recompensas) para atingir um objetivo a longo prazo, tornando os MDPs a estrutura natural. Este paradigma é vital para treinar agentes que precisam de tomar sequências de decisões em ambientes dinâmicos, o que é cada vez mais relevante em áreas como a Visão por Computador (CV) para tarefas que requerem perceção ou interação ativa. O objetivo geral deste ramo da Aprendizagem Automática (AM) é frequentemente otimizar a precisão a longo prazo ou o sucesso da tarefa através do sinal de recompensa.

Relação com outros conceitos

Embora relacionados com modelos de sequência como os modelos de Markov ocultos (HMM), os MDP são distintos porque envolvem um agente que escolhe ativamente acções para influenciar as transições e maximizar as recompensas, ao passo que os HMM modelam normalmente sistemas em que as transições de estado ocorrem com base em probabilidades sem que o agente tenha controlo sobre as acções. A resolução de MDPs envolve frequentemente técnicas como a Programação Dinâmica (se o modelo for totalmente conhecido) ou algoritmos de RL como Q-learning e métodos de gradiente de política quando o modelo é desconhecido. Estes métodos baseiam-se frequentemente na equação de Bellman para relacionar o valor de um estado com os valores dos estados seguintes. Ferramentas como o OpenAI Gym (agora Gymnasium) fornecem ambientes para desenvolver e testar agentes de RL, muitas vezes implementados usando estruturas como PyTorch. A gestão da formação e da implementação de modelos tão complexos pode ser facilitada por plataformas como o Ultralytics HUB, que suporta vários fluxos de trabalho de IA, incluindo os que envolvem modelos de ponta como o Ultralytics YOLO. Para uma compreensão abrangente, consulta recursos como o livro RL de Sutton & Barto.

Lê tudo