Découvrez le Deep Reinforcement Learning (DRL) et comment il combine la prise de décision par IA et l'apprentissage profond. Apprenez dès aujourd'hui à utiliser Ultralytics comme couche de perception.
L'apprentissage par renforcement profond (DRL) est un sous-ensemble avancé de l' intelligence artificielle (IA) qui combine les capacités décisionnelles de l' apprentissage par renforcement avec la puissance perceptuelle de l'apprentissage profond (DL). Alors que l'apprentissage par renforcement traditionnel s'appuie sur des méthodes tabulaires pour mettre en correspondance des situations et des actions, ces méthodes rencontrent des difficultés lorsque l' environnement est complexe ou visuel. Le DRL surmonte cette difficulté en utilisant des réseaux neuronaux pour interpréter des données d'entrée à haute dimension , telles que des images vidéo ou des lectures de capteurs, permettant ainsi aux machines d'apprendre des stratégies efficaces directement à partir de l'expérience brute , sans instruction humaine explicite.
Dans un système DRL, un agent IA interagit avec un environnement par étapes temporelles discrètes. À chaque étape, l'agent observe l'« état » actuel, sélectionne une action en fonction d'une politique et reçoit un signal de récompense indiquant le succès ou l'échec de cette action. L'objectif principal est de maximiser la récompense cumulative au fil du temps.
Le composant « profond » fait référence à l'utilisation de réseaux neuronaux profonds pour approximer la politique (la stratégie d' action) ou la fonction de valeur (la récompense future estimée). Cela permet à l'agent de traiter des données non structurées, en utilisant la vision par ordinateur (CV) pour « voir » l'environnement comme le ferait un être humain. Cette capacité est rendue possible par des frameworks tels que PyTorch ou TensorFlow, qui facilitent l' apprentissage de ces réseaux complexes.
DRL est passé de la recherche théorique à des applications pratiques à fort impact dans divers secteurs :
Pour de nombreuses applications DRL, l'« état » est visuel. Les modèles à grande vitesse agissent comme les yeux de l'agent, convertissant les images brutes en données structurées sur lesquelles le réseau de politiques peut agir. L'exemple suivant illustre comment le modèle YOLO26 sert de couche de perception pour un agent, en extrayant des observations (par exemple, le nombre d'obstacles) de l'environnement.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
Il est utile de différencier l'apprentissage par renforcement profond des termes similaires pour comprendre sa position unique dans le paysage de l'IA. dans le paysage de l'IA :
Les développeurs qui souhaitent gérer les ensembles de données nécessaires aux couches de perception des systèmes DRL peuvent utiliser Ultralytics , qui simplifie les workflows d'annotation et de formation dans le cloud . De plus, les chercheurs utilisent souvent des environnements standardisés tels que Gymnasium pour comparer leurs algorithmes DRL à des références établies.