Découvre l'apprentissage par renforcement, où les agents optimisent les actions par essais et erreurs pour maximiser les récompenses. Explore les concepts, les applications et les avantages !
L'apprentissage par renforcement (RL) est un domaine distinct de l'apprentissage automatique (ML) dans lequel un agent apprend à prendre des décisions en effectuant des actions dans un environnement pour atteindre un objectif spécifique. Contrairement à d'autres paradigmes d'apprentissage automatique, les agents d'apprentissage par renforcement ne sont pas explicitement informés des actions à entreprendre. Au lieu de cela, ils apprennent par essais et erreurs, en recevant un retour d'information sous forme de récompenses ou de pénalités en fonction de leurs actions. L'objectif fondamental de l'agent est d'apprendre une stratégie, appelée politique, qui maximise sa récompense cumulative au fil du temps.
Comprendre le RL implique plusieurs éléments clés :
Le RL diffère considérablement des autres paradigmes de ML primaire :
Si des techniques issues de l'apprentissage profond (DL), comme l'utilisation de réseaux neuronaux (NN), sont souvent employées dans le cadre du RL (connu sous le nom d'apprentissage par renforcement profond) pour gérer des espaces d'état complexes (comme les images) et des politiques approximatives ou des fonctions de valeur, le mécanisme d'apprentissage fondamental basé sur les récompenses reste distinct.
Le RL a connu un succès remarquable dans divers domaines complexes :
Dans de nombreuses applications RL du monde réel, notamment en robotique et dans les systèmes autonomes, la vision par ordinateur (VA) joue un rôle crucial. Des modèles comme Ultralytics YOLO peuvent traiter les entrées visuelles (par exemple, les flux des caméras) pour extraire des informations pertinentes sur l'environnement, formant ainsi la représentation de l'"état" utilisée par l'agent RL. Cela permet aux agents de percevoir leur environnement et de prendre des décisions éclairées basées sur des données visuelles. Des outils comme OpenAI Gym et des simulateurs spécialisés sont souvent utilisés pour former ces agents RL basés sur la vision. Bien que les modèles Ultralytics se concentrent principalement sur les tâches de perception via l'apprentissage supervisé, leurs résultats peuvent servir d'entrées vitales pour les systèmes RL contrôlant des agents physiques ou naviguant dans des environnements visuels complexes. La formation et le déploiement de ces systèmes complexes peuvent être gérés à l'aide de plateformes comme Ultralytics HUB.
Pour une compréhension fondamentale des concepts de l'apprentissage par renforcement, des ressources telles que les chapitres d'introduction du livre de Sutton et Barto sur l'apprentissage par renforcement sont fortement recommandées.
Comment fonctionne l'apprentissage par renforcement
Le processus RL est itératif. L'agent observe l'état actuel de l'environnement, sélectionne une action basée sur sa politique actuelle et exécute cette action. L'environnement passe à un nouvel état et fournit un signal de récompense à l'agent. L'agent utilise ce signal de récompense pour mettre à jour sa politique, dans le but de recevoir plus de récompenses à l'avenir. Un aspect essentiel de ce processus est l'équilibre entre l'exploration (essayer de nouvelles actions pour découvrir des récompenses potentiellement meilleures) et l'exploitation (utiliser des actions connues qui donnent des récompenses élevées). Cette boucle d'apprentissage est souvent formalisée à l'aide de processus de décision de Markov (PDM).