Glossaire

Apprentissage par renforcement

Découvrez l'apprentissage par renforcement, où les agents optimisent leurs actions par essais et erreurs afin de maximiser les récompenses. Explorez les concepts, les applications et les avantages !

L'apprentissage par renforcement (RL) est un domaine de l'apprentissage automatique (ML) dans lequel un agent intelligent apprend à prendre des décisions optimales par essais et erreurs. Contrairement à d'autres paradigmes d'apprentissage, on ne dit pas à l'agent quelles actions il doit entreprendre. Au lieu de cela, il interagit avec un environnement et reçoit un retour d'information sous forme de récompenses ou de pénalités. L'objectif fondamental de l'agent est d'apprendre une stratégie, appelée politique, qui maximise sa récompense cumulative au fil du temps. Cette approche s'inspire de la psychologie comportementale et est particulièrement efficace pour résoudre les problèmes de prise de décision séquentielle, comme le souligne le texte fondateur de Sutton et Barto.

Comment fonctionne l'apprentissage par renforcement

Le processus RL est modélisé comme une boucle de rétroaction continue impliquant plusieurs composants clés :

  • Agent : L'apprenant et le décideur, comme un robot ou un programme de jeu.
  • Environnement : Le monde extérieur avec lequel l'agent interagit.
  • État : Un instantané de l'environnement à un moment précis, fournissant à l'agent les informations dont il a besoin pour prendre une décision.
  • Action : Une action choisie par l'agent parmi un ensemble d'options possibles.
  • Récompense : Un signal numérique envoyé par l'environnement à l'agent après chaque action, indiquant dans quelle mesure l'action était souhaitable.

L'agent observe l'état actuel de l'environnement, effectue une action et reçoit une récompense en même temps que l'état suivant. Ce cycle se répète et, grâce à cette expérience, l'agent affine progressivement sa politique pour favoriser les actions qui conduisent à des récompenses plus élevées à long terme. Le cadre formel de ce problème est souvent décrit par un processus de décision de Markov (PDM). Les algorithmes RL les plus répandus sont l'apprentissage Q et les gradients de politique.

Comparaison avec d'autres paradigmes d'apprentissage

Le RL se distingue des autres principaux types d'apprentissage automatique :

Applications dans le monde réel

Le RL a connu un succès remarquable dans un grand nombre de domaines complexes :

  • Lejeu: Les agents RL ont atteint des performances surhumaines dans des jeux complexes. Un exemple marquant est AlphaGo de DeepMind, qui a appris à vaincre les meilleurs joueurs de Go du monde. Un autre exemple est le travail d'OpenAI sur Dota 2, où un agent a appris des stratégies d'équipe complexes.
  • Robotique: La RL est utilisée pour former des robots à des tâches complexes telles que la manipulation d'objets, l'assemblage et la locomotion. Au lieu d'être explicitement programmé, un robot peut apprendre à marcher ou à saisir des objets en étant récompensé pour ses tentatives réussies dans un environnement simulé ou réel. Il s'agit d'un domaine de recherche essentiel dans des institutions telles que le Berkeley Artificial Intelligence Research (BAIR) Lab.
  • Gestion des ressources : Optimisation des opérations dans des systèmes complexes, tels que la gestion du trafic dans les villes, l'équilibrage de la charge dans les réseaux énergétiques et l'optimisation des réactions chimiques.
  • Systèmes de recommandation: La RL peut être utilisée pour optimiser la séquence des éléments recommandés à un utilisateur afin de maximiser l'engagement et la satisfaction à long terme, plutôt que de se contenter de clics immédiats.

Pertinence dans l'écosystème de l'IA

L'apprentissage par renforcement est un élément essentiel du paysage de l'intelligence artificielle (IA), en particulier pour la création de systèmes autonomes. Alors que des entreprises comme Ultralytics se spécialisent dans les modèles d'IA de vision comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances à l'aide de l'apprentissage supervisé, les capacités de perception de ces modèles sont des intrants essentiels pour les agents RL.

Par exemple, un robot peut utiliser un modèle de perception YOLO, déployé via Ultralytics HUB, pour comprendre son environnement (l'"état"). Une politique RL utilise ensuite ces informations pour décider de son prochain mouvement. Cette synergie entre la vision par ordinateur (VA) pour la perception et le RL pour la prise de décision est fondamentale pour la construction de systèmes intelligents. Ces systèmes sont souvent développés à l'aide de frameworks tels que PyTorch et TensorFlow et sont fréquemment testés dans des environnements de simulation standardisés tels que Gymnasium (anciennement OpenAI Gym). Afin d'améliorer l'alignement des modèles sur les préférences humaines, des techniques telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) prennent également de plus en plus d'importance dans ce domaine. Les progrès en matière d'apprentissage par renforcement sont continuellement encouragés par des organisations telles que DeepMind et des conférences universitaires telles que NeurIPS.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers