Glossaire

Apprentissage par renforcement

Découvre l'apprentissage par renforcement, où les agents optimisent les actions par essais et erreurs pour maximiser les récompenses. Explore les concepts, les applications et les avantages !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'apprentissage par renforcement (RL) est un domaine distinct de l'apprentissage automatique (ML) dans lequel un agent apprend à prendre des décisions en effectuant des actions dans un environnement pour atteindre un objectif spécifique. Contrairement à d'autres paradigmes d'apprentissage automatique, les agents d'apprentissage par renforcement ne sont pas explicitement informés des actions à entreprendre. Au lieu de cela, ils apprennent par essais et erreurs, en recevant un retour d'information sous forme de récompenses ou de pénalités en fonction de leurs actions. L'objectif fondamental de l'agent est d'apprendre une stratégie, appelée politique, qui maximise sa récompense cumulative au fil du temps.

Concepts fondamentaux de l'apprentissage par renforcement

Comprendre le RL implique plusieurs éléments clés :

  • Agent : L'apprenant ou le décideur qui interagit avec l'environnement.
  • Environnement : Le monde ou le système externe avec lequel l'agent interagit. Il fournit des informations en retour à l'agent.
  • État : Une représentation de la situation actuelle ou de la configuration de l'environnement. Dans les applications de vision par ordinateur, l'état peut être dérivé de données d'images.
  • Action : Un mouvement ou une décision prise par l'agent, qui influence l'état de l'environnement.
  • Récompense : Un signal numérique de retour de l'environnement indiquant à quel point la dernière action de l'agent était bonne ou mauvaise par rapport à l'objectif.
  • Politique : La stratégie ou la cartographie que l'agent utilise pour déterminer la prochaine action en fonction de l'état actuel. L'objectif du RL est de trouver la politique optimale.

Comment fonctionne l'apprentissage par renforcement

Le processus RL est itératif. L'agent observe l'état actuel de l'environnement, sélectionne une action basée sur sa politique actuelle et exécute cette action. L'environnement passe à un nouvel état et fournit un signal de récompense à l'agent. L'agent utilise ce signal de récompense pour mettre à jour sa politique, dans le but de recevoir plus de récompenses à l'avenir. Un aspect essentiel de ce processus est l'équilibre entre l'exploration (essayer de nouvelles actions pour découvrir des récompenses potentiellement meilleures) et l'exploitation (utiliser des actions connues qui donnent des récompenses élevées). Cette boucle d'apprentissage est souvent formalisée à l'aide de processus de décision de Markov (PDM).

Comparaison avec d'autres types d'apprentissage automatique

Le RL diffère considérablement des autres paradigmes de ML primaire :

  • Apprentissage supervisé: Apprend à partir d'ensembles de données étiquetés où la sortie correcte est fournie pour chaque entrée. Le RL apprend à partir de signaux de récompense sans étiquette explicite de l'action correcte.
  • Apprentissage non supervisé: Trouve des modèles et des structures dans des données non étiquetées. L'apprentissage non supervisé se concentre sur l'apprentissage orienté vers un objectif grâce à l'interaction et au retour d'information.

Si des techniques issues de l'apprentissage profond (DL), comme l'utilisation de réseaux neuronaux (NN), sont souvent employées dans le cadre du RL (connu sous le nom d'apprentissage par renforcement profond) pour gérer des espaces d'état complexes (comme les images) et des politiques approximatives ou des fonctions de valeur, le mécanisme d'apprentissage fondamental basé sur les récompenses reste distinct.

Applications dans le monde réel

Le RL a connu un succès remarquable dans divers domaines complexes :

  1. Jouer à des jeux : Les agents RL ont réalisé des performances surhumaines dans des jeux complexes comme le Go(AlphaGo de DeepMind) et divers jeux vidéo(OpenAI Five dans Dota 2). Ces agents apprennent des stratégies complexes par le biais de l'auto-jeu, dépassant de loin les capacités humaines. Cette capacité est explorée dans AI in Video Games (L'IA dans les jeux vidéo).
  2. Robotique: La RL est utilisée pour entraîner les robots à effectuer des tâches telles que la locomotion, la manipulation d'objets et l'assemblage. Les robots peuvent apprendre des compétences motrices complexes dans des environnements simulés ou directement par le biais d'interactions dans le monde réel, en s'adaptant à des circonstances imprévues. Tu peux en savoir plus sur Comprendre l'intégration de la robotique.
  3. Véhicules autonomes: Les algorithmes RL peuvent être utilisés pour optimiser les politiques de conduite, comme la prise de décision pour les changements de voie, la fusion ou la navigation aux intersections, ce qui contribue aux avancées évoquées dans L'IA dans les voitures autonomes.
  4. Systèmes de recommandation : Les RL peuvent personnaliser les recommandations en apprenant les préférences des utilisateurs en fonction des interactions et des retours d'information au fil du temps, en s'adaptant de façon dynamique à l'évolution des goûts. En savoir plus sur les systèmes de recommandation.

Apprentissage par renforcement et vision par ordinateur

Dans de nombreuses applications RL du monde réel, notamment en robotique et dans les systèmes autonomes, la vision par ordinateur (VA) joue un rôle crucial. Des modèles comme Ultralytics YOLO peuvent traiter les entrées visuelles (par exemple, les flux des caméras) pour extraire des informations pertinentes sur l'environnement, formant ainsi la représentation de l'"état" utilisée par l'agent RL. Cela permet aux agents de percevoir leur environnement et de prendre des décisions éclairées basées sur des données visuelles. Des outils comme OpenAI Gym et des simulateurs spécialisés sont souvent utilisés pour former ces agents RL basés sur la vision. Bien que les modèles Ultralytics se concentrent principalement sur les tâches de perception via l'apprentissage supervisé, leurs résultats peuvent servir d'entrées vitales pour les systèmes RL contrôlant des agents physiques ou naviguant dans des environnements visuels complexes. La formation et le déploiement de ces systèmes complexes peuvent être gérés à l'aide de plateformes comme Ultralytics HUB.

Pour une compréhension fondamentale des concepts de l'apprentissage par renforcement, des ressources telles que les chapitres d'introduction du livre de Sutton et Barto sur l'apprentissage par renforcement sont fortement recommandées.

Tout lire