Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage par renforcement

Découvrez les concepts fondamentaux de l'apprentissage par renforcement (RL). Apprenez comment les agents utilisent le retour d'information pour maîtriser des tâches et découvrez comment Ultralytics alimente les systèmes de vision RL.

L'apprentissage par renforcement (RL) est un sous-ensemble orienté vers les objectifs de l' apprentissage automatique (ML) dans lequel un système autonome, appelé agent, apprend à prendre des décisions en effectuant des actions et en recevant des retours d'information de son environnement. Contrairement à l'apprentissage supervisé, qui s'appuie sur des ensembles de données statiques étiquetés avec les bonnes réponses, les algorithmes RL apprennent grâce à un processus dynamique d'essais et d'erreurs. L'agent interagit avec une simulation ou le monde réel, observant les conséquences de ses actions afin de déterminer quelles stratégies rapportent les récompenses les plus élevées à long terme. Cette approche imite étroitement le concept psychologique du conditionnement opérant, dans lequel le comportement est façonné par le renforcement positif (récompenses) et le renforcement négatif (punitions) au fil du temps.

Concepts fondamentaux de la boucle RL

Pour comprendre le fonctionnement du RL, il est utile de le visualiser comme un cycle continu d'interactions. Ce cadre est souvent formalisé mathématiquement sous la forme d'un processus de décision markovien (MDP), qui structure la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie contrôlés par le décideur.

Les principaux éléments de ce cycle d'apprentissage sont les suivants :

  • Agent IA: Entité chargée d' apprendre et de prendre des décisions. Elle perçoit l'environnement et prend des mesures pour maximiser son succès cumulatif.
  • Environnement : le monde extérieur dans lequel l'agent opère. Il peut s'agir d'un jeu vidéo complexe, d'une simulation de marché financier ou d'un entrepôt physique dans le domaine de l' IA appliquée à la logistique.
  • État : instantané ou représentation de la situation actuelle. Dans les applications visuelles, cela implique souvent le traitement des flux de caméra à l'aide de la vision par ordinateur (CV) pour detect et les obstacles.
  • Action : Mouvement ou choix spécifique effectué par l'agent. L'ensemble complet de tous les mouvements possibles est appelé « espace d'action ».
  • Récompense : signal numérique envoyé par l'environnement à l'agent après une action. Une fonction de récompense bien conçue attribue des valeurs positives aux actions bénéfiques et des pénalités aux actions nuisibles.
  • Politique : stratégie ou ensemble de règles utilisées par l'agent pour déterminer l'action suivante en fonction de l'état actuel . Des algorithmes tels que le Q-learning définissent comment cette politique est mise à jour et optimisée.

Applications concrètes

L'apprentissage par renforcement a dépassé le stade de la recherche théorique pour être déployé de manière pratique et avec un impact important dans divers secteurs.

  • Robotique avancée : dans le domaine de l' IA appliquée à la robotique, le RL permet aux machines de maîtriser des compétences motrices complexes difficiles à coder en dur. Les robots peuvent apprendre à saisir des objets irréguliers ou à se déplacer sur des terrains accidentés en s'entraînant dans des moteurs physiques tels que NVIDIA Sim avant d'être déployés dans le monde réel.
  • Systèmes autonomes : Les véhicules autonomes utilisent le RL pour prendre des décisions en temps réel dans des situations de circulation imprévisibles. Alors que les modèles de détection d'objets identifient les piétons et les panneaux de signalisation, les algorithmes RL aident à déterminer les règles de conduite sûres pour les changements de voie et la navigation aux intersections.
  • Optimisation stratégique : le RL a attiré l'attention du monde entier lorsque des systèmes tels que AlphaGoGoogle ont battu des champions mondiaux humains dans des jeux de société complexes. Au-delà des jeux, ces agents optimisent la logistique industrielle, par exemple en contrôlant les systèmes de refroidissement des centres de données afin de réduire la consommation d'énergie.

Intégration de la vision avec RL

Dans de nombreuses applications modernes, l'« état » observé par un agent est visuel. Des modèles hautement performants tels que YOLO26 agissent comme couche de perception pour les agents RL, convertissant les images brutes en données structurées. Ces informations traitées, telles que l'emplacement et la classe des objets, deviennent l' état que la politique RL utilise pour choisir une action.

L'exemple suivant montre comment utiliser la fonction ultralytics paquetage permettant de traiter une trame d'environnement, en créant une représentation d'état (par exemple, le nombre d'objets) pour une boucle RL théorique.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Différencier les termes apparentés

Il est important de distinguer l'apprentissage par renforcement des autres paradigmes d'apprentissage automatique :

  • vs. Apprentissage supervisé: L'apprentissage supervisé nécessite un superviseur externe compétent qui fournit des données d'entraînement étiquetées (par exemple, « cette image contient un chat »). En revanche, l'apprentissage par renforcement apprend à partir des conséquences de ses propres actions sans étiquettes explicites , découvrant les chemins optimaux par l'exploration.
  • vs. Apprentissage non supervisé: L'apprentissage non supervisé se concentre sur la recherche de structures ou de modèles cachés dans des données non étiquetées (comme le regroupement de clients). Le RL diffère en ce qu'il est explicitement orienté vers un objectif, se concentrant sur la maximisation d'un signal de récompense plutôt que sur la simple description de la structure des données.

À mesure que la puissance de calcul augmente, des techniques telles que l' apprentissage par renforcement à partir du retour d'information humain (RLHF) affinent davantage la manière dont les agents apprennent, en alignant leurs objectifs plus étroitement sur les valeurs humaines complexes et les normes de sécurité . Les chercheurs utilisent souvent des environnements standardisés tels que Gymnasium pour évaluer et améliorer ces algorithmes. Pour les équipes qui cherchent à gérer les ensembles de données nécessaires aux couches de perception de ces agents, Ultralytics offre des outils complets pour l'annotation et la gestion des modèles.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant