Découvrez l'apprentissage par renforcement, où les agents optimisent leurs actions par essais et erreurs afin de maximiser les récompenses. Explorez les concepts, les applications et les avantages !
L'apprentissage par renforcement (RL) est un domaine de l'apprentissage automatique (ML) dans lequel un agent intelligent apprend à prendre des décisions optimales par essais et erreurs. Contrairement à d'autres paradigmes d'apprentissage, on ne dit pas à l'agent quelles actions il doit entreprendre. Au lieu de cela, il interagit avec un environnement et reçoit un retour d'information sous forme de récompenses ou de pénalités. L'objectif fondamental de l'agent est d'apprendre une stratégie, appelée politique, qui maximise sa récompense cumulative au fil du temps. Cette approche s'inspire de la psychologie comportementale et est particulièrement efficace pour résoudre les problèmes de prise de décision séquentielle, comme le souligne le texte fondateur de Sutton et Barto.
Le RL se distingue des autres principaux types d'apprentissage automatique :
Le RL a connu un succès remarquable dans un grand nombre de domaines complexes :
L'apprentissage par renforcement est un élément essentiel du paysage de l'intelligence artificielle (IA), en particulier pour la création de systèmes autonomes. Alors que des entreprises comme Ultralytics se spécialisent dans les modèles d'IA de vision comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances à l'aide de l'apprentissage supervisé, les capacités de perception de ces modèles sont des intrants essentiels pour les agents RL.
Par exemple, un robot peut utiliser un modèle de perception YOLO, déployé via Ultralytics HUB, pour comprendre son environnement (l'"état"). Une politique RL utilise ensuite ces informations pour décider de son prochain mouvement. Cette synergie entre la vision par ordinateur (VA) pour la perception et le RL pour la prise de décision est fondamentale pour la construction de systèmes intelligents. Ces systèmes sont souvent développés à l'aide de frameworks tels que PyTorch et TensorFlow et sont fréquemment testés dans des environnements de simulation standardisés tels que Gymnasium (anciennement OpenAI Gym). Afin d'améliorer l'alignement des modèles sur les préférences humaines, des techniques telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) prennent également de plus en plus d'importance dans ce domaine. Les progrès en matière d'apprentissage par renforcement sont continuellement encouragés par des organisations telles que DeepMind et des conférences universitaires telles que NeurIPS.
Comment fonctionne l'apprentissage par renforcement
Le processus RL est modélisé comme une boucle de rétroaction continue impliquant plusieurs composants clés :
L'agent observe l'état actuel de l'environnement, effectue une action et reçoit une récompense en même temps que l'état suivant. Ce cycle se répète et, grâce à cette expérience, l'agent affine progressivement sa politique pour favoriser les actions qui conduisent à des récompenses plus élevées à long terme. Le cadre formel de ce problème est souvent décrit par un processus de décision de Markov (PDM). Les algorithmes RL les plus répandus sont l'apprentissage Q et les gradients de politique.