Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Processus de décision markovien (MDP)

Découvrez les principes fondamentaux des processus décisionnels markoviens (MDP). Apprenez comment les MDP stimulent l'apprentissage par renforcement et comment Ultralytics fournit des données d'état en temps réel.

Un processus décisionnel markovien (MDP) est un cadre mathématique utilisé pour modéliser la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur. Il s'agit du modèle fondamental de l' apprentissage par renforcement (RL), qui fournit un moyen structuré permettant à un agent IA d'interagir avec un environnement afin d'atteindre un objectif spécifique. Contrairement à l'apprentissage supervisé standard , qui s'appuie sur des ensembles de données statiques étiquetés, un MDP se concentre sur la prise de décision séquentielle où les actions actuelles influencent les possibilités futures.

Principaux éléments d'un PDM

Pour comprendre le fonctionnement d'un MDP, il est utile de le visualiser comme un cycle d'interaction entre un agent et son environnement. Ce cycle est défini par cinq composantes clés :

  • État : Situation ou configuration actuelle de l'environnement. Dans le cas des véhicules autonomes, l'état peut inclure la vitesse de la voiture, sa position et les obstacles à proximité détectés par les capteurs de vision par ordinateur (CV).
  • Action : ensemble de tous les mouvements ou choix possibles à la disposition de l'agent. On parle souvent d' espace d'action, qui peut être discret (par exemple, se déplacer vers la gauche, se déplacer vers la droite) ou continu (par exemple, ajuster l'angle de braquage).
  • Probabilité de transition : elle définit la probabilité de passer d'un état à un autre après avoir pris une mesure spécifique. Elle tient compte de l'incertitude et de la dynamique du monde réel, distinguant les MDP des systèmes déterministes.
  • Récompense : signal numérique reçu après chaque action. La fonction de récompense est essentielle car elle guide le comportement de l'agent : les récompenses positives encouragent les actions souhaitables, tandis que les récompenses négatives (pénalités) découragent les erreurs.
  • Facteur de réduction : valeur qui détermine l'importance des récompenses futures par rapport aux récompenses immédiates. Il aide l'agent à privilégier la planification à long terme plutôt que la gratification à court terme, un concept central dans l' optimisation stratégique.

Applications concrètes

Les MDP agissent comme le moteur de prise de décision derrière de nombreuses technologies de pointe, permettant aux systèmes de naviguer dans des environnements complexes et dynamiques.

  • Contrôle robotique : dans le domaine de l'IA appliquée à la robotique, les MDP permettent aux machines d'acquérir des compétences motrices complexes. Par exemple, un bras robotique utilise les MDP pour déterminer le trajet optimal pour saisir un objet tout en évitant les collisions. L'état correspond aux angles articulaires et à la position de l'objet, dérivés de la détection d'objets en 3D, et la récompense est basée sur la vitesse de préhension réussie.
  • Gestion des stocks : les détaillants utilisent les MDP pour optimiser leurs stocks. Ici, l'état représente les niveaux de stock actuels, les actions sont les décisions de réapprovisionnement et les récompenses sont calculées sur la base des marges bénéficiaires moins les coûts de stockage et de rupture de stock.
  • Traitement médical : dans le domaine de la médecine personnalisée, les MDP aident à concevoir des plans de traitement dynamiques. En modélisant les paramètres de santé des patients sous forme d'états et les médicaments sous forme d'actions, les médecins peuvent utiliser la modélisation prédictive pour optimiser les résultats à long terme en matière de santé des patients.

Relation avec l'apprentissage par renforcement

Bien qu'ils soient étroitement liés, il est important de faire la distinction entre un MDP et l'apprentissage par renforcement. Un MDP est l' énoncé formel du problème, c'est-à-dire le modèle mathématique de l'environnement. L'apprentissage par renforcement est la méthode utilisée pour résoudre ce problème lorsque la dynamique interne (probabilités de transition) n'est pas entièrement connue. Les algorithmes d'apprentissage par renforcement, tels que l'apprentissage Q, interagissent avec le MDP pour apprendre la meilleure politique par essais et erreurs.

Observation visuelle dans les MDP

Dans les applications modernes d'IA, l'« état » d'un MDP est souvent dérivé de données visuelles. Les modèles de perception à grande vitesse agissent comme les yeux du système, convertissant les flux bruts des caméras en données structurées que le MDP peut traiter. Par exemple, Ultralytics peut fournir en temps réel les coordonnées des objets , qui servent d'entrées d'état pour un agent décisionnel.

L'exemple suivant montre comment extraire une représentation d'état (boîtes englobantes) d'une image à l'aide de Python, qui pourrait ensuite être intégrée dans une politique MDP.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
    print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")

En intégrant des modèles de vision robustes aux cadres MDP, les développeurs peuvent créer des systèmes qui non seulement perçoivent le monde , mais prennent également des décisions intelligentes et adaptatives au sein de celui-ci. Cette synergie est essentielle pour l'avancement des systèmes autonomes et de la fabrication intelligente.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant