Taux d'apprentissage
Découvrez comment le taux d'apprentissage influe sur l'entraînement des modèles. Découvrez comment optimiser la taille des pas pour Ultralytics afin d'obtenir des performances SOTA en matière de détection d'objets et plus encore.
Le taux d'apprentissage est un
paramètre hyperparamétrique essentiel qui
détermine la taille des pas effectués par un modèle pendant le processus d'optimisation. Dans le contexte de l'entraînement d'un réseau neuronal,
il contrôle l'ampleur de la mise à jour des poids internes du modèle en réponse à l'erreur estimée chaque fois que le modèle
traite un lot de données. Imaginez une personne qui descend une montagne vers une vallée (le point d'erreur le plus bas
) ; le taux d'apprentissage détermine la longueur de ses pas. Si ses pas sont trop grands, elle risque de passer complètement
au-dessus de la vallée et de ne pas atteindre le fond. Si ses pas sont trop petits, atteindre sa destination pourrait prendre un temps
impraticable.
Le dilemme « Boucle d'or » dans l'optimisation
La recherche du taux d'apprentissage optimal est souvent décrite comme un exercice d'équilibre dans les
flux de travail d'apprentissage automatique. L'objectif est de
minimiser la fonction de perte, qui mesure la
différence entre les prédictions du modèle et la vérité terrain réelle. Ce processus s'appuie fortement sur un
algorithme d'optimisation tel que la
descente de gradient stochastique (SGD)
ou Adam pour naviguer dans le paysage de perte
.
-
Taux d'apprentissage trop élevé : si la valeur est trop élevée, les mises à jour des poids du modèle seront drastiques.
Cela peut entraîner un phénomène de « dépassement », dans lequel le modèle ne parvient pas à converger vers une solution et
oscille au contraire de manière incontrôlée ou diverge. Cette instabilité peut parfois déclencher un
problème d'explosion du gradient, rendant le
processus d'apprentissage inutile.
-
Taux d'apprentissage trop faible : à l'inverse, une taille de pas extrêmement petite garantit que le modèle se déplace
prudemment vers le minimum, mais cela peut entraîner un
sous-ajustement, car le processus d'apprentissage devient
extrêmement lent. Le modèle peut effectivement se retrouver bloqué dans un minimum local ou nécessiter des milliers d'époches supplémentaires
pour apprendre des modèles simples, ce qui entraîne un gaspillage de ressources informatiques
. Les chercheurs consultent souvent la
PyTorch sur l'optimisation pour comprendre
comment différents algorithmes interagissent avec ces valeurs.
Applications concrètes
L'impact des ajustements du taux d'apprentissage est évident dans divers secteurs à forts enjeux où
des tâches de vision par ordinateur sont déployées.
-
Systèmes de conduite autonome : dans le cadre du développement de
véhicules autonomes, les ingénieurs utilisent de vastes
ensembles de données pour entraîner des modèles de détection d'objets afin d'identifier les
piétons et les panneaux de signalisation. Lorsqu'ils appliquent
l'apprentissage par transfert à un modèle pré-entraîné tel que
YOLO26, les développeurs utilisent généralement un taux d'apprentissage beaucoup plus faible
que celui utilisé lors de l'entraînement initial. Ce « réglage fin » garantit que le modèle apprend les nuances
d'environnements de conduite spécifiques (par exemple, routes enneigées ou autoroutes désertiques) sans effacer les capacités générales d'extraction de caractéristiques
qu'il possède déjà.
-
Imagerie médicale diagnostique : dans l'
analyse d'images médicales, comme la détection de
tumeurs dans les IRM, la précision est primordiale. Un taux d'apprentissage élevé crée ici un risque que le modèle ignore les
différences subtiles de texture qui distinguent les tissus malins des tissus bénins. Les praticiens ont souvent recours à une
technique appelée « warm-up du taux d'apprentissage », qui consiste à augmenter progressivement le taux de zéro à une valeur cible afin de
stabiliser les premières étapes de l'entraînement, garantissant ainsi que les
poids du réseau neuronal s'établissent dans une configuration stable
avant que l'apprentissage agressif ne commence. Vous pouvez en savoir plus sur ces stratégies dans le
cours intensifGoogle learningGoogle .
Différencier les termes apparentés
Il est important de distinguer le taux d'apprentissage des autres paramètres d'entraînement, car ils sont souvent configurés dans les
mêmes fichiers de configuration, mais servent à des fins différentes :
-
Taux d'apprentissage vs taille du lot : alors que le taux d'apprentissage contrôle l'ampleur de la
mise à jour, la taille du lot détermine le nombre d'
échantillons d'entraînement traités avant qu'une mise à jour n'ait lieu. Il existe une forte relation entre les deux ; souvent, lorsque l'on
augmente la taille du lot, il faut également augmenter le taux d'apprentissage afin de maintenir l'efficacité de l'entraînement, un concept
exploré dans des articles sur l'entraînement par lots importants.
-
Taux d'apprentissage vs décroissance : la décroissance fait référence à une stratégie dans laquelle le taux d'apprentissage est systématiquement
réduit au fil du temps. Un planificateur peut réduire le taux d'un facteur 10 toutes les 30 époques. Cela aide le modèle à faire
de grands bonds conceptuels dès le début, puis à affiner sa précision par petites étapes vers la fin de l'entraînement. Il s'agit d'une
fonctionnalité standard du Python Ultralytics .
Définition du taux d'apprentissage dans Ultralytics YOLO
Lorsque vous utilisez des frameworks modernes, vous pouvez facilement ajuster le taux d'apprentissage initial (lr0) et la fraction finale du
taux d'apprentissage (lrf). Voici un exemple de configuration à l'aide du
Plate-forme Ultralytics client compatible pour une formation personnalisée.
from ultralytics import YOLO
# Load the YOLO26 model (latest state-of-the-art architecture)
model = YOLO("yolo26n.pt")
# Train the model with a custom initial learning rate
# lr0=0.01 sets the initial rate
# lrf=0.01 sets the final learning rate to (lr0 * lrf)
results = model.train(data="coco8.yaml", epochs=10, lr0=0.01, lrf=0.01)
Pour les utilisateurs avancés, des techniques telles que le
LR Finder (popularisé par fast.ai) peuvent essentiellement
automatiser la découverte de la meilleure valeur de départ en exécutant une courte période d'essai où le taux est augmenté de manière exponentielle
jusqu'à ce que la perte diverge. La maîtrise de cet hyperparamètre est souvent la clé pour débloquer les
performances SOTA (State-of-the-Art) dans vos projets d'IA.