Glossário

Processo de Decisão de Markov (MDP)

Descobre os processos de decisão de Markov (MDP) e o seu papel na IA, na aprendizagem por reforço, na robótica e na tomada de decisões no domínio dos cuidados de saúde.

Um processo de decisão de Markov (MDP) é uma estrutura matemática utilizada para modelar a tomada de decisões em situações em que os resultados são parcialmente aleatórios e parcialmente sob o controlo de um decisor, muitas vezes referido como um agente. É um conceito fundamental na Inteligência Artificial (IA), particularmente no domínio da Aprendizagem por Reforço (RL). Os MDPs fornecem uma forma formal de descrever problemas em que um agente interage com um ambiente ao longo do tempo, aprendendo a tomar sequências de decisões para atingir um objetivo específico, normalmente maximizando uma recompensa cumulativa. Este quadro é essencial para compreender como os agentes podem aprender comportamentos óptimos em ambientes complexos e incertos.

Componentes principais de um MDP

Um MDP é tipicamente definido por vários componentes chave:

Estados (S): Um conjunto de situações ou configurações possíveis em que o agente pode estar. Por exemplo, numa tarefa de navegação de um robô, um estado pode representar a localização do robô numa grelha.
Acções (A): Um conjunto de escolhas disponíveis para o agente em cada estado. As acções específicas disponíveis podem depender do estado atual. No caso do robot, as acções podem ser "deslocar-se para norte", "deslocar-se para sul", "deslocar-se para leste", "deslocar-se para oeste".
Probabilidades de transição (P): Define a probabilidade de passar de um estado (s) para outro estado (s') depois de tomar uma ação específica (a). Isto capta a incerteza do ambiente; uma ação pode nem sempre conduzir ao resultado pretendido. Por exemplo, um robô que tente deslocar-se para norte pode ter uma pequena probabilidade de escorregar e ficar no mesmo sítio ou de se desviar ligeiramente da rota.
Recompensas (R): Um valor numérico recebido pelo agente após a transição do estado (s) para o estado (s') devido à ação (a). As recompensas indicam quão boa ou má é uma determinada transição ou estado. O objetivo é normalmente maximizar a recompensa total acumulada ao longo do tempo. Atingir um local alvo pode dar uma grande recompensa positiva, enquanto que atingir um obstáculo pode dar uma recompensa negativa.
Fator de desconto (γ): Um valor entre 0 e 1 que determina a importância das recompensas futuras em comparação com as recompensas imediatas. Um fator de desconto mais baixo dá prioridade aos ganhos a curto prazo, enquanto um valor mais elevado dá ênfase ao sucesso a longo prazo.

Um aspeto crucial dos MDPs é a propriedade de Markovque estabelece que o estado e a recompensa futuros dependem apenas do estado e da ação actuais, e não da sequência de estados e acções que conduziram ao estado atual.

Como funcionam os MDPs na IA e na aprendizagem automática

No contexto da Aprendizagem Automática (AM), os MDP constituem a base da maioria dos algoritmos de Aprendizagem por Reforço. O objetivo de um MDP é encontrar uma política óptima (π), que é uma estratégia ou regra que indica ao agente qual a ação a tomar em cada estado para maximizar a sua recompensa cumulativa descontada esperada.

Algoritmos como Q-learning, SARSA e métodos de gradiente de política são concebidos para resolver MDPs, muitas vezes sem exigir um conhecimento explícito das probabilidades de transição ou das funções de recompensa, aprendendo-as através da interação com o ambiente. Este ciclo de interação implica que o agente observe o estado atual, selecione uma ação com base na sua política, receba uma recompensa e faça a transição para um novo estado de acordo com a dinâmica do ambiente. Este processo repete-se, permitindo ao agente aperfeiçoar gradualmente a sua política. Este paradigma de aprendizagem difere significativamente da Aprendizagem Supervisionada (aprendizagem a partir de dados etiquetados) e da Aprendizagem Não Supervisionada (procura de padrões em dados não etiquetados).

Aplicações no mundo real

Os MDP e as técnicas de RL utilizadas para os resolver têm inúmeras aplicações práticas:

Robótica: Treinar robôs para executar tarefas complexas, como a navegação em terrenos desconhecidos, a manipulação de objectos ou operações em linhas de montagem. O robô aprende a melhor sequência de acções para atingir o seu objetivo enquanto lida com incertezas físicas. Vê como a visão por computador se integra na robótica.
Sistemas autónomos: Otimizar o comportamento de veículos autónomos, como decidir quando mudar de faixa ou como navegar em cruzamentos de forma segura e eficiente(IA em carros autónomos).
Finanças: Desenvolver estratégias de negociação algorítmicas em que um agente aprende políticas de compra/venda óptimas com base nos estados do mercado ou otimizar carteiras de investimento(blogue AI in Finance).
Gestão de recursos: Otimizar decisões em áreas como o controlo de inventário, a distribuição de energia em redes inteligentes(blogue AI in energy) ou a atribuição dinâmica de canais em redes sem fios.
Jogar jogos: Treinar agentes de IA para jogar jogos de tabuleiro complexos (como Go ou Xadrez) ou videojogos a níveis sobre-humanos, como o AlphaGo da DeepMind.

Relação com outros conceitos

É útil distinguir MDPs de conceitos relacionados:

Aprendizagem por reforço (RL): A RL é uma área da aprendizagem automática que se preocupa com a forma como os agentes aprendem comportamentos óptimos através de tentativa e erro. Os MDPs fornecem a estrutura matemática formal que define o problema que os algoritmos de RL pretendem resolver. O Deep Reinforcement Learning combina RL com Deep Learning (DL) para lidar com espaços de estado complexos e de alta dimensão.
Modelos de Markov ocultos (HMM): Os HMMs são modelos estatísticos utilizados quando se assume que o sistema que está a ser modelado é um processo de Markov com estados não observados (ocultos). Ao contrário dos MDPs, os HMMs centram-se principalmente na inferência de estados ocultos a partir de observações e não envolvem normalmente acções ou recompensas para a tomada de decisões.
Programação dinâmica: Técnicas como Value Iteration e Policy Iteration, que podem resolver MDPs se o modelo (transições e recompensas) for conhecido, baseiam-se em princípios de programação dinâmica.

O desenvolvimento de soluções baseadas em MDPs envolve frequentemente a utilização de bibliotecas de RL construídas em estruturas como PyTorch ou TensorFlow. A gestão das experiências e do treino de modelos pode envolver plataformas como o Ultralytics HUB para simplificar os fluxos de trabalho dos projectos de IA. A avaliação eficaz do modelo é crucial para avaliar o desempenho da política aprendida.

Processo de Decisão de Markov (MDP)

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Componentes principais de um MDP

Como funcionam os MDPs na IA e na aprendizagem automática

Aplicações no mundo real

Relação com outros conceitos

Lê mais blogues

Junta-te à comunidade Ultralytics

Processo de Decisão de Markov (MDP)

Treina os modelos YOLO simplesmentecom Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Componentes principais de um MDP

Como funcionam os MDPs na IA e na aprendizagem automática

Aplicações no mundo real

Relação com outros conceitos

Lê mais blogues

Junta-te à comunidade Ultralytics

Treina os modelos YOLO simplesmente
com Ultralytics HUB