Glossaire

Normalisation par lots

Booste les performances de l'apprentissage profond avec la normalisation des lots ! Découvre comment cette technique améliore la vitesse d'entraînement, la stabilité et la précision des modèles d'IA.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La normalisation par lots est une technique utilisée dans la formation des réseaux neuronaux profonds (DNN) pour stabiliser le processus d'apprentissage et réduire considérablement le nombre d'époques de formation nécessaires. Introduite par Sergey Ioffe et Christian Szegedy dans leur article de 2015,"Batch Normalization : Accelerating Deep Network Training by Reducing Internal Covariate Shift", elle s'attaque au problème où la distribution des entrées dans les couches profondes du réseau change pendant l'apprentissage, ce qui ralentit la convergence. En normalisant les entrées de chaque couche, la normalisation par lots permet de maintenir des distributions plus stables, ce qui conduit à une formation plus rapide et plus fiable.

Comment fonctionne la normalisation par lots

Pendant la formation, la normalisation des lots normalise les entrées d'une couche pour chaque mini-lot. Il s'agit d'ajuster les données de façon à ce qu'elles aient une moyenne de zéro et un écart type de un. Plus précisément, pour chaque caractéristique du mini-lot, il calcule la moyenne et la variance et les utilise pour normaliser la caractéristique. Cependant, le simple fait de normaliser peut limiter le pouvoir de représentation de la couche. Pour y remédier, la normalisation par lots introduit deux paramètres que l'on peut apprendre pour chaque caractéristique : un paramètre d'échelle (gamma) et un paramètre de décalage (bêta). Ces paramètres permettent au réseau d'apprendre l'échelle et la moyenne optimales des entrées normalisées, laissant ainsi le réseau décider si et dans quelle mesure la normalisation est bénéfique. Pendant l'inférence, la normalisation par lots utilise des statistiques agrégées (comme les moyennes mobiles de la moyenne et de la variance) collectées pendant l'entraînement, ce qui garantit un résultat déterministe.

Avantages de la normalisation par lots

L'application de la normalisation par lots offre plusieurs avantages clés pour la formation des modèles d'apprentissage profond :

  • Formation plus rapide : Il permet d'utiliser des taux d'apprentissage plus élevés, ce qui accélère considérablement le processus de convergence pendant la formation du modèle.
  • Stabilise l'apprentissage : En réduisant le décalage des covariables internes (le changement dans la distribution des entrées des couches), il rend le processus d'apprentissage plus stable et prévisible. Cela est particulièrement utile dans les réseaux très profonds.
  • Effet de régularisation : La normalisation par lots ajoute un léger effet de régularisation, qui peut parfois réduire le besoin d'autres techniques de régularisation comme le Dropout. Le bruit introduit par les statistiques des mini-lots agit comme un régularisateur.
  • Réduit la sensibilité à l'initialisation : Les réseaux avec normalisation par lots sont souvent moins sensibles aux poids initiaux, ce qui facilite le processus d'initialisation.

Applications et exemples

La normalisation par lots est largement utilisée, notamment dans les tâches de vision par ordinateur impliquant des réseaux neuronaux convolutifs (CNN).

  1. Classification d'images : Les architectures comme ResNet, qui atteignent une précision de pointe sur des benchmarks comme ImageNet, s'appuient fortement sur la normalisation par lots après les couches convolutives pour permettre l'entraînement de réseaux très profonds. Les modèles Ultralytics prennent en charge les tâches de classification d'images pour lesquelles la normalisation par lots contribue à des performances solides.
  2. Détection d'objets : Modèles tels que Ultralytics YOLO intègrent la normalisation par lots dans leurs structures dorsales et cervicales. Cela permet de stabiliser l'apprentissage et d'améliorer la capacité du modèle à détecter des objets avec précision et rapidité, ce qui est crucial pour des applications telles que les véhicules autonomes et la surveillance en temps réel.

Considérations et alternatives

Bien que très efficace, la performance de la normalisation par lots peut dépendre de la taille des lots; de très petites tailles de lots peuvent conduire à des estimations inexactes des statistiques des lots. Son comportement diffère également entre les phases de formation et d'inférence, ce qui nécessite un traitement minutieux des statistiques en cours d'exécution. Des alternatives telles que la normalisation des couches, la normalisation des instances et la normalisation des groupes répondent à certaines de ces limitations et sont utilisées dans différents contextes, en particulier dans les réseaux neuronaux récurrents (RNN) ou lorsque la taille des lots est faible. Des implémentations peuvent être trouvées dans des cadres populaires comme PyTorch et TensorFlow.

Dans l'ensemble, la normalisation par lots reste une technique fondamentale et largement adoptée qui a considérablement impacté la dynamique d'entraînement et les performances des modèles d'apprentissage profond modernes.

Tout lire