Glossaire

Processus de décision de Markov (PDM)

Découvre les processus de décision de Markov (PDM) et leur rôle dans l'IA, l'apprentissage par renforcement, la robotique et la prise de décision en matière de santé.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le processus décisionnel de Markov (PDM) est un cadre mathématique permettant de modéliser la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur. C'est un concept crucial en intelligence artificielle et en apprentissage automatique, en particulier dans le domaine de l'apprentissage par renforcement, qui fournit une approche structurée pour résoudre des problèmes de décisions séquentielles complexes. Les MDP sont utilisés pour formaliser les problèmes où un agent interagit avec un environnement, dans le but de choisir des actions qui maximisent une récompense cumulative.

Définition

Un processus de décision de Markov (PDM) est défini par un ensemble d'états, un ensemble d'actions, des probabilités de transition et des fonctions de récompense. Formellement, un PDM est un processus de contrôle stochastique à temps discret. Il fournit un cadre mathématique pour modéliser la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur. Tu trouveras des explications mathématiques plus approfondies dans des ressources telles que la page de Wikipédia sur le processus de décision de Markov. La propriété "Markov" est essentielle : l'état futur ne dépend que de l'état et de l'action actuels, et non de l'historique des états ou actions précédents. Cette propriété "sans mémoire" simplifie le problème tout en permettant de saisir de nombreux scénarios du monde réel.

Principaux éléments d'un PDM

  • États : Ils représentent les situations ou configurations possibles dans lesquelles l'agent peut se trouver. Par exemple, dans un scénario de voiture auto-conduite, les états pourraient inclure l'emplacement actuel de la voiture, sa vitesse et les conditions de circulation environnantes. Dans le contexte de l'automatisation des processus robotiques (RPA), un état pourrait être l'étape actuelle d'un processus de flux de travail.
  • Actions : Ce sont les choix qu'un agent peut faire dans chaque état. En poursuivant l'exemple de la voiture auto-conduite, les actions pourraient être d'accélérer, de décélérer, de tourner à gauche ou à droite. Pour un chatbot, les actions pourraient être les différentes réponses qu'il peut donner à la saisie d'un utilisateur.
  • Probabilités de transition : Pour chaque paire état-action, ces probabilités définissent la probabilité de transition vers chaque état suivant possible. Étant donné que les PDM impliquent la stochasticité, le fait d'entreprendre une action dans un état ne garantit pas un résultat spécifique ; au lieu de cela, il conduit à une distribution de probabilités sur les états suivants possibles.
  • Fonctions de récompense : Ces fonctions quantifient la récompense immédiate qu'un agent reçoit après avoir effectué une transition vers un nouvel état. La récompense peut être positive (souhaitable) ou négative (indésirable, souvent appelée coût ou pénalité). Par exemple, dans un jeu, gagner peut donner lieu à une récompense positive importante, tandis que perdre peut donner lieu à une récompense négative. Lors de l'ajustement des hyperparamètres d'un modèle, la récompense peut être liée à la performance du modèle sur un ensemble de validation.

Pertinence et applications

Les MDP sont fondamentales pour l'apprentissage par renforcement (RL), dont l'objectif est d'entraîner un agent à prendre des décisions optimales dans un environnement afin de maximiser la récompense cumulée. Les algorithmes d'apprentissage par renforcement tels que Q-learning et SARSA sont basés sur le cadre des PDM. Les PDM sont particulièrement utiles dans les scénarios où :

  • La prise de décision est séquentielle : Les actions entreprises maintenant affectent les états et les récompenses futurs.
  • L'incertitude est inhérente : Les résultats des actions ne sont pas toujours prévisibles.
  • Un objectif peut être défini par des récompenses : L'objectif est de maximiser une certaine mesure cumulative de la réussite.

Les applications des MDP dans le monde réel sont les suivantes :

  • Robotique : En robotique, les PDM peuvent être utilisés pour planifier les mouvements, la navigation et les tâches de manipulation des robots. Par exemple, un MDP peut aider un robot à apprendre à naviguer efficacement dans un entrepôt, en évitant les obstacles et en atteignant les emplacements cibles, ce qui peut être utile dans les domaines de la fabrication et de la logistique.
  • Santé : Les PDM peuvent modéliser la prise de décision clinique, comme la détermination des stratégies de traitement optimales pour les patients. Ils peuvent aider à personnaliser les plans de traitement en fonction de l'état des patients et à prédire les résultats des traitements, améliorant ainsi l'IA dans le domaine de la santé. Par exemple, les PDM peuvent être utilisés pour optimiser les ajustements de la posologie des médicaments au fil du temps.

Concepts apparentés

  • Apprentissage par renforcement (RL) : L'apprentissage par renforcement est un sous-domaine de l'apprentissage automatique qui se concentre sur la formation d'agents pour qu'ils prennent des séquences de décisions. Les PDM constituent le fondement théorique de nombreux algorithmes d'apprentissage par renforcement. Les techniques d'apprentissage par renforcement sont souvent utilisées pour résoudre les PDM lorsque les probabilités de transition et les fonctions de récompense sont inconnues ou complexes.
Tout lire