Glossaire

Couche de chute

Découvre comment les couches d'abandon empêchent le surajustement dans les réseaux neuronaux en améliorant la généralisation, la robustesse et la performance du modèle.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Une couche d'abandon est une technique fondamentale utilisée dans la formation des modèles d'apprentissage profond, en particulier les réseaux neuronaux, pour lutter contre l'overfitting. L'overfitting se produit lorsqu'un modèle apprend trop bien les données d'entraînement, y compris son bruit et ses modèles spécifiques, ce qui entrave sa capacité à se généraliser à de nouvelles données inédites. L'exclusion permet de remédier à ce problème en éliminant temporairement et aléatoirement, ou en mettant à zéro, une fraction des activations des neurones d'une couche au cours de chaque itération de formation. Cela oblige le réseau à apprendre des caractéristiques plus robustes qui ne dépendent pas d'un seul neurone.

Comment fonctionne le décrochage

Au cours du processus de formation, pour chaque exemple de formation dans un lot, chaque neurone de la couche d'abandon a une certaine probabilité (le "taux d'abandon", généralement entre 0,1 et 0,5) d'être désactivé. Cela signifie que sa sortie est fixée à zéro pour cette passe avant et arrière particulière. Les neurones actifs restants voient leurs sorties augmentées d'un facteur équivalent à 1/(1-taux d'abandon) afin de maintenir la somme globale attendue des activations. Ce processus crée effectivement des architectures de réseau "amincies" légèrement différentes pour chaque étape de formation, ce qui empêche les neurones de trop coadapter et les encourage à apprendre plus de caractéristiques utiles indépendamment les unes des autres. Il est important de noter que pendant l'évaluation du modèle ou la phase d'inférence, la couche d'élimination est désactivée et tous les neurones sont utilisés avec les poids qu'ils ont appris, ce qui garantit que la capacité totale du réseau est utilisée pour les prédictions.

Avantages et importance

Le principal avantage de l'utilisation des couches d'exclusion est l'amélioration de la généralisation du modèle. En empêchant les coadaptations complexes entre les neurones, l'abandon rend le modèle moins sensible au bruit et aux modèles spécifiques des données d'apprentissage, ce qui permet d'obtenir de meilleures performances sur des données de validation ou de test inédites. Il s'agit d'une forme de régularisation, dont l'objectif est similaire à celui de techniques telles que la décroissance des poids L1/L2, mais qui fonctionne par le biais d'un mécanisme stochastique. Elle est particulièrement efficace dans les réseaux de grande taille comportant de nombreux paramètres, où le surajustement est un défi courant. Le concept original a été détaillé dans l'article "Dropout : A Simple Way to Prevent Neural Networks from Overfitting" (L'abandon : un moyen simple d'empêcher les réseaux neuronaux de se surajuster).

Applications dans le monde réel

Les couches de décrochage sont largement utilisées dans divers domaines de l'IA et de l'apprentissage automatique :

  1. Vision par ordinateur : Dans des tâches telles que la détection d'objets et la classification d'images, le Dropout est souvent appliqué aux couches entièrement connectées des réseaux neuronaux convolutifs (CNN). Des modèles comme Ultralytics YOLO bénéficient implicitement de techniques de régularisation pendant l'entraînement, ce qui les aide à mieux se généraliser dans divers ensembles de données d'images comme COCO ou des données personnalisées préparées via Ultralytics HUB. Cela garantit la robustesse lors de la détection d'objets dans des scènes variées du monde réel, ce qui est crucial pour les applications dans les véhicules autonomes ou les systèmes de sécurité.
  2. Traitement du langage naturel (NLP) : Le Dropout est couramment utilisé dans les réseaux neuronaux récurrents (RNN) comme les LSTM et dans les modèles de transformateurs utilisés pour des tâches telles que la traduction automatique ou l'analyse des sentiments. Il permet d'éviter que les modèles ne mémorisent des phrases ou des structures de phrases spécifiques du corpus d'entraînement, ce qui permet de mieux comprendre et de générer du langage naturel. Les structures telles que les Hugging Face Transformers int ègrent souvent le décrochage dans l'architecture de leurs modèles.

Concepts et distinctions connexes

L'abandon est l'une des nombreuses techniques utilisées pour empêcher l'ajustement excessif. Les autres comprennent :

  • Régularisation L1 et L2 : Elles ajoutent une pénalité à la fonction de perte en fonction de l'ampleur des poids du modèle, ce qui favorise les poids plus faibles.
  • Normalisation des lots: Normalise les entrées d'une couche pour chaque mini-lot. Bien qu'elle soit principalement utilisée pour stabiliser et accélérer la formation, elle peut également avoir un léger effet de régularisation.
  • Augmentation des données: Augmente artificiellement la taille et la diversité de l'ensemble de données de formation en appliquant des transformations telles que des rotations, des retournements ou des changements de couleur aux données d'entrée. Explore les techniques d'augmentation dans la documentationUltralytics .

L'exclusion diffère en manipulant directement les activations des neurones de façon stochastique pendant la formation, ce qui permet de former efficacement un ensemble de réseaux amincis.

Mise en œuvre

Les couches de décrochage sont des composants standard dans les principaux cadres d'apprentissage profond. Ils sont facilement disponibles dans des bibliothèques telles que PyTorch et TensorFlow, ce qui les rend faciles à incorporer dans les architectures de réseaux neuronaux.

Tout lire