Découvrez les principes fondamentaux des processus décisionnels markoviens (MDP). Apprenez comment les MDP stimulent l'apprentissage par renforcement et comment Ultralytics fournit des données d'état en temps réel.
Un processus décisionnel markovien (MDP) est un cadre mathématique utilisé pour modéliser la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur. Il s'agit du modèle fondamental de l' apprentissage par renforcement (RL), qui fournit un moyen structuré permettant à un agent IA d'interagir avec un environnement afin d'atteindre un objectif spécifique. Contrairement à l'apprentissage supervisé standard , qui s'appuie sur des ensembles de données statiques étiquetés, un MDP se concentre sur la prise de décision séquentielle où les actions actuelles influencent les possibilités futures.
Pour comprendre le fonctionnement d'un MDP, il est utile de le visualiser comme un cycle d'interaction entre un agent et son environnement. Ce cycle est défini par cinq composantes clés :
Les MDP agissent comme le moteur de prise de décision derrière de nombreuses technologies de pointe, permettant aux systèmes de naviguer dans des environnements complexes et dynamiques.
Bien qu'ils soient étroitement liés, il est important de faire la distinction entre un MDP et l'apprentissage par renforcement. Un MDP est l' énoncé formel du problème, c'est-à-dire le modèle mathématique de l'environnement. L'apprentissage par renforcement est la méthode utilisée pour résoudre ce problème lorsque la dynamique interne (probabilités de transition) n'est pas entièrement connue. Les algorithmes d'apprentissage par renforcement, tels que l'apprentissage Q, interagissent avec le MDP pour apprendre la meilleure politique par essais et erreurs.
Dans les applications modernes d'IA, l'« état » d'un MDP est souvent dérivé de données visuelles. Les modèles de perception à grande vitesse agissent comme les yeux du système, convertissant les flux bruts des caméras en données structurées que le MDP peut traiter. Par exemple, Ultralytics peut fournir en temps réel les coordonnées des objets , qui servent d'entrées d'état pour un agent décisionnel.
L'exemple suivant montre comment extraire une représentation d'état (boîtes englobantes) d'une image à l'aide de Python, qui pourrait ensuite être intégrée dans une politique MDP.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to observe the current 'state' of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding box coordinates to form the state vector
# This structured data tells the agent where objects are located
for box in results[0].boxes:
print(f"State Object: Class {int(box.cls)} at {box.xywh.tolist()}")
En intégrant des modèles de vision robustes aux cadres MDP, les développeurs peuvent créer des systèmes qui non seulement perçoivent le monde , mais prennent également des décisions intelligentes et adaptatives au sein de celui-ci. Cette synergie est essentielle pour l'avancement des systèmes autonomes et de la fabrication intelligente.