Descobre os processos de decisão de Markov (MDP) e o seu papel na IA, na aprendizagem por reforço, na robótica e na tomada de decisões no domínio dos cuidados de saúde.
Um Processo de Decisão de Markov (MDP) fornece uma estrutura matemática para modelar a tomada de decisões em cenários em que os resultados são parcialmente aleatórios e parcialmente controláveis por um decisor, muitas vezes referido como um agente. É um conceito fundamental no âmbito da Inteligência Artificial (IA), especialmente fundamental para o campo da Aprendizagem por Reforço (RL). Os MDP permitem que os agentes aprendam comportamentos óptimos através de tentativa e erro, interagindo com o seu ambiente ao longo do tempo.
Um MDP é tipicamente definido por vários componentes chave:
Uma caraterística que define os MDPs é a propriedade de Markov. Este pressuposto estabelece que o estado futuro e a recompensa dependem apenas do estado atual e da ação tomada, e não da sequência de estados e acções que conduziram ao estado atual. Em essência, o estado atual contém toda a informação relevante do passado para tomar uma decisão óptima para o futuro. Isto simplifica significativamente o processo de modelação. Para mais informações, consulta a página da Wikipedia sobre Propriedades de Markov.
Os MDP constituem a base teórica para a resolução de muitos problemas de decisão sequenciais do mundo real:
Os MDPs formalizam a estrutura do problema para a maioria das tarefas de Aprendizagem por Reforço. Ao contrário da Aprendizagem Supervisionada (aprendizagem a partir de dados rotulados) ou da Aprendizagem Não Supervisionada (descoberta de padrões), a Aprendizagem por Reforço centra-se na aprendizagem através da interação e do feedback (recompensas) para atingir um objetivo a longo prazo, tornando os MDPs a estrutura natural. Este paradigma é vital para treinar agentes que precisam de tomar sequências de decisões em ambientes dinâmicos, o que é cada vez mais relevante em áreas como a Visão por Computador (CV) para tarefas que requerem perceção ou interação ativa. O objetivo geral deste ramo da Aprendizagem Automática (AM) é frequentemente otimizar a precisão a longo prazo ou o sucesso da tarefa através do sinal de recompensa.
Embora relacionados com modelos de sequência como os modelos de Markov ocultos (HMM), os MDP são distintos porque envolvem um agente que escolhe ativamente acções para influenciar as transições e maximizar as recompensas, ao passo que os HMM modelam normalmente sistemas em que as transições de estado ocorrem com base em probabilidades sem que o agente tenha controlo sobre as acções. A resolução de MDPs envolve frequentemente técnicas como a Programação Dinâmica (se o modelo for totalmente conhecido) ou algoritmos de RL como Q-learning e métodos de gradiente de política quando o modelo é desconhecido. Estes métodos baseiam-se frequentemente na equação de Bellman para relacionar o valor de um estado com os valores dos estados seguintes. Ferramentas como o OpenAI Gym (agora Gymnasium) fornecem ambientes para desenvolver e testar agentes de RL, muitas vezes implementados usando estruturas como PyTorch. A gestão da formação e da implementação de modelos tão complexos pode ser facilitada por plataformas como o Ultralytics HUB, que suporta vários fluxos de trabalho de IA, incluindo os que envolvem modelos de ponta como o Ultralytics YOLO. Para uma compreensão abrangente, consulta recursos como o livro RL de Sutton & Barto.