Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage par renforcement profond

Découvrez le Deep Reinforcement Learning (DRL) et comment il combine la prise de décision par IA et l'apprentissage profond. Apprenez dès aujourd'hui à utiliser Ultralytics comme couche de perception.

L'apprentissage par renforcement profond (DRL) est un sous-ensemble avancé de l' intelligence artificielle (IA) qui combine les capacités décisionnelles de l' apprentissage par renforcement avec la puissance perceptuelle de l'apprentissage profond (DL). Alors que l'apprentissage par renforcement traditionnel s'appuie sur des méthodes tabulaires pour mettre en correspondance des situations et des actions, ces méthodes rencontrent des difficultés lorsque l' environnement est complexe ou visuel. Le DRL surmonte cette difficulté en utilisant des réseaux neuronaux pour interpréter des données d'entrée à haute dimension , telles que des images vidéo ou des lectures de capteurs, permettant ainsi aux machines d'apprendre des stratégies efficaces directement à partir de l'expérience brute , sans instruction humaine explicite.

Le mécanisme central du DRL

Dans un système DRL, un agent IA interagit avec un environnement par étapes temporelles discrètes. À chaque étape, l'agent observe l'« état » actuel, sélectionne une action en fonction d'une politique et reçoit un signal de récompense indiquant le succès ou l'échec de cette action. L'objectif principal est de maximiser la récompense cumulative au fil du temps.

Le composant « profond » fait référence à l'utilisation de réseaux neuronaux profonds pour approximer la politique (la stratégie d' action) ou la fonction de valeur (la récompense future estimée). Cela permet à l'agent de traiter des données non structurées, en utilisant la vision par ordinateur (CV) pour « voir » l'environnement comme le ferait un être humain. Cette capacité est rendue possible par des frameworks tels que PyTorch ou TensorFlow, qui facilitent l' apprentissage de ces réseaux complexes.

Applications concrètes

DRL est passé de la recherche théorique à des applications pratiques à fort impact dans divers secteurs :

  • Robotique avancée : dans le domaine de l' IA appliquée à la robotique, le DRL permet aux machines de maîtriser des compétences motrices complexes difficiles à coder en dur. Les robots peuvent apprendre à saisir des objets irréguliers ou à traverser des terrains accidentés en affinant leurs mouvements dans des moteurs physiques tels que NVIDIA Sim. Cela implique souvent un entraînement sur des données synthétiques avant de déployer la politique sur du matériel physique.
  • Conduite autonome : Les véhicules autonomes exploitent le DRL pour prendre des décisions en temps réel dans des situations de circulation imprévisibles. Alors que les modèles de détection d'objets identifient les piétons et les panneaux de signalisation, les algorithmes DRL utilisent ces informations pour déterminer les règles de conduite sûres pour les changements de voie, la navigation aux intersections et le contrôle de la vitesse, gérant efficacement la latence d'inférence requise pour la sécurité.

Vision en tant qu'observateur de l'État

Pour de nombreuses applications DRL, l'« état » est visuel. Les modèles à grande vitesse agissent comme les yeux de l'agent, convertissant les images brutes en données structurées sur lesquelles le réseau de politiques peut agir. L'exemple suivant illustre comment le modèle YOLO26 sert de couche de perception pour un agent, en extrayant des observations (par exemple, le nombre d'obstacles) de l'environnement.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinguer la LRD des concepts apparentés

Il est utile de différencier l'apprentissage par renforcement profond des termes similaires pour comprendre sa position unique dans le paysage de l'IA. dans le paysage de l'IA :

  • Apprentissage par renforcement (RL): Le RL standard est le concept fondamental, mais il repose généralement sur des tables de consultation (comme les tables Q) qui deviennent impraticables pour les grands espaces d'états. Le DRL résout ce problème en utilisant l'apprentissage profond pour approximer les fonctions, ce qui lui permet de traiter des entrées complexes telles que des images.
  • Apprentissage par renforcement à partir du feedback humain (RLHF): Alors que le DRL optimise généralement une fonction de récompense définie mathématiquement (par exemple, les points dans un jeu), le RLHF affine les modèles, en particulier les grands modèles linguistiques (LLM), en utilisant les préférences subjectives des humains afin d'aligner le comportement de l'IA sur les valeurs humaines, une technique popularisée par des groupes de recherche tels que OpenAI.
  • Apprentissage non supervisé: Les méthodes non supervisées recherchent des modèles cachés dans les données sans retour explicite. En revanche, le DRL est orienté vers un objectif, guidé par un signal de récompense qui oriente activement l'agent vers un objectif spécifique, comme l'expliquent les textes fondamentaux de Sutton et Barto.

Les développeurs qui souhaitent gérer les ensembles de données nécessaires aux couches de perception des systèmes DRL peuvent utiliser Ultralytics , qui simplifie les workflows d'annotation et de formation dans le cloud . De plus, les chercheurs utilisent souvent des environnements standardisés tels que Gymnasium pour comparer leurs algorithmes DRL à des références établies.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant