Glossaire

Processus de décision de Markov (PDM)

Découvre les processus de décision de Markov (PDM) et leur rôle dans l'IA, l'apprentissage par renforcement, la robotique et la prise de décision en matière de santé.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Un processus de décision de Markov (PDM) fournit un cadre mathématique pour modéliser la prise de décision dans des scénarios où les résultats sont en partie aléatoires et en partie contrôlables par un décideur, souvent appelé agent. Il s'agit d'un concept clé de l'intelligence artificielle (IA), particulièrement fondamental dans le domaine de l'apprentissage par renforcement (AR). Les MDP permettent aux agents d'apprendre des comportements optimaux par essais et erreurs en interagissant avec leur environnement au fil du temps.

Principaux éléments d'un PDM

Un PDM est généralement défini par plusieurs éléments clés :

  • États (S) : Un ensemble de situations ou de configurations possibles dans lesquelles l'agent peut se trouver. Par exemple, l'emplacement d'un robot dans une pièce ou le niveau de stock d'un produit.
  • Actions (A) : Un ensemble de choix disponibles pour l'agent dans chaque état. Par exemple, les directions dans lesquelles un robot peut se déplacer ou la quantité d'un produit à commander.
  • Probabilités de transition (P) : la probabilité de passer d'un état à un autre après avoir effectué une action spécifique. Cela reflète l'incertitude de l'environnement. Par exemple, essayer d'avancer peut réussir dans 90 % des cas mais échouer dans 10 % des cas (rester sur place ou heurter un obstacle).
  • Récompenses (R) : un signal numérique reçu par l'agent après la transition d'un état à un autre suite à une action. Les récompenses indiquent l'intérêt immédiat de la transition. L'objectif est généralement de maximiser la récompense cumulative au fil du temps.
  • Politique (π) : La stratégie de l'agent, qui dicte l'action à choisir dans chaque état. L'objectif de la résolution d'un MDP est généralement de trouver une politique optimale qui maximise la récompense attendue à long terme. Les techniques issues de l'apprentissage par renforcement profond sont souvent utilisées pour trouver de telles politiques dans des environnements complexes.

La propriété de Markov

Une caractéristique déterminante des MDP est la propriété de Markov. Cette hypothèse stipule que l'état et la récompense futurs ne dépendent que de l'état actuel et de l'action entreprise, et non de la séquence d'états et d'actions qui ont conduit à l'état actuel. En substance, l'état actuel contient toutes les informations pertinentes du passé pour prendre une décision optimale pour l'avenir. Cela simplifie considérablement le processus de modélisation. Tu trouveras plus de détails sur la page de Wikipédia consacrée à la propriété de Markov.

Applications dans le monde réel

Les PDM constituent la base théorique de la résolution de nombreux problèmes de décision séquentielle dans le monde réel :

  • Navigation robotique: Un robot qui décide comment se déplacer pour atteindre une destination cible tout en évitant les obstacles. Les états sont les emplacements et orientations possibles du robot, les actions sont des commandes de mouvement (avancer, tourner), les transitions impliquent des probabilités de réussite du mouvement, et les récompenses peuvent être positives pour atteindre l'objectif et négatives pour les collisions ou le temps pris. Cela s'étend à des systèmes complexes tels que les véhicules autonomes.
  • Gestion des stocks : Détermination des politiques de commande optimales pour les produits dont la demande est incertaine. Les états représentent les niveaux de stock, les actions sont des quantités de commande, les transitions dépendent de la demande stochastique des clients, et les récompenses équilibrent les recettes des ventes par rapport aux coûts de commande et de détention. Ceci est crucial pour des applications telles que l'IA pour une gestion plus intelligente des stocks dans le commerce de détail. Tu peux trouver des travaux universitaires explorant les PDM dans la Recherche opérationnelle.
  • Jeu : Agents d'IA apprenant à jouer à des jeux comme les échecs ou le Go, où l'état est la configuration du plateau, les actions sont des mouvements légaux et des récompenses sont accordées pour gagner la partie. Le travail de DeepMind sur AlphaGo illustre la puissance de la logique des relations humaines dans de tels domaines.

Pertinence en matière d'IA et d'apprentissage automatique

Les PDM formalisent la structure du problème pour la plupart des tâches d'apprentissage par renforcement. Contrairement à l'apprentissage supervisé (apprentissage à partir de données étiquetées) ou à l'apprentissage non supervisé (recherche de modèles), l'apprentissage par renforcement se concentre sur l'apprentissage par l'interaction et le retour d'information (récompenses) pour atteindre un objectif à long terme, ce qui fait des PDM le cadre naturel. Ce paradigme est essentiel pour former des agents qui doivent prendre des séquences de décisions dans des environnements dynamiques, ce qui est de plus en plus pertinent dans des domaines tels que la vision artificielle (CV) pour les tâches nécessitant une perception ou une interaction active. L'objectif global de cette branche de l'apprentissage automatique est souvent d'optimiser la précision à long terme ou la réussite de la tâche par le biais du signal de récompense.

Relations avec d'autres concepts

Bien qu'ils soient liés à des modèles de séquence tels que les modèles de Markov cachés (HMM), les MDP sont distincts car ils impliquent un agent qui choisit activement des actions pour influencer les transitions et maximiser les récompenses, alors que les HMM modélisent généralement des systèmes où les transitions d'état se produisent sur la base de probabilités sans que l'agent n'ait de contrôle sur les actions. La résolution des MDP fait souvent appel à des techniques telles que la programmation dynamique (si le modèle est entièrement connu) ou à des algorithmes RL tels que l'apprentissage Q et les méthodes de gradient de politique lorsque le modèle est inconnu. Ces méthodes s'appuient souvent sur l'équation de Bellman pour relier la valeur d'un état aux valeurs des états suivants. Des outils comme OpenAI Gym (aujourd'hui Gymnasium) fournissent des environnements pour développer et tester des agents RL, souvent mis en œuvre à l'aide de frameworks tels que PyTorch. La gestion de la formation et du déploiement de modèles aussi complexes peut être facilitée par des plateformes comme Ultralytics HUB, qui prend en charge divers flux de travail d'IA, y compris ceux qui impliquent des modèles de pointe tels qu' Ultralytics YOLO. Pour une compréhension complète, réfère-toi à des ressources telles que le livre RL de Sutton & Barto.

Tout lire