Glossaire

Leaky ReLU

Découvrez la puissance de l'activation Leaky ReLU pour l'IA et la ML. Résolvez le problème de la ReLU mourante et améliorez les performances de vos modèles en CV, NLP, GAN, et bien plus encore !

Le Leaky Rectified Linear Unit, ou Leaky ReLU, est une fonction d'activation utilisée dans les réseaux neuronaux (NN) et constitue une amélioration directe de la fonction standard Rectified Linear Unit (ReLU). Elle a été conçue pour résoudre le problème de la "ReLU mourante", où les neurones peuvent devenir inactifs et cesser d'apprendre pendant la formation. En introduisant une petite pente non nulle pour les valeurs d'entrée négatives, Leaky ReLU garantit que les neurones ont toujours un gradient, ce qui permet un apprentissage plus stable et plus cohérent dans les modèles d'apprentissage profond (DL). Cette simple modification s'est avérée efficace dans diverses architectures, contribuant à améliorer les performances des modèles et la dynamique de l'apprentissage.

Comment le Leaky ReLU résout le problème des neurones mourants

La motivation première de la Leaky ReLU est de résoudre le problème des neurones mourants. Dans une fonction ReLU standard, toute entrée négative dans un neurone se traduit par une sortie de zéro. Si un neurone reçoit constamment une entrée négative, il produira toujours zéro. Par conséquent, le gradient traversant ce neurone au cours de la rétropropagation sera également nul. Cela signifie que les poids du neurone ne sont plus mis à jour et qu'il cesse de participer au processus d'apprentissage - il "meurt".

Le Leaky ReLU résout ce problème en autorisant un petit gradient positif lorsque l'unité n'est pas active. Au lieu de produire un résultat nul pour les entrées négatives, il produit une valeur multipliée par une petite constante (la "fuite"). Ainsi, le neurone n'a jamais un gradient nul, ce qui lui permet de récupérer et de continuer à apprendre. Cette approche a été décrite pour la première fois dans l'article intitulé Empirical Evaluation of Rectified Activations in Convolutional Network (Évaluation empirique des activations rectifiées dans les réseaux convolutifs).

Applications dans le monde réel

La capacité de la Leaky ReLU à promouvoir une formation plus stable l'a rendue précieuse dans plusieurs domaines de l'intelligence artificielle (IA).

  • Réseaux adverbiaux génératifs (GAN) : Le Leaky ReLU est fréquemment utilisé dans les réseaux discriminants des Generative Adversarial Networks (GAN). Les GANs impliquent un équilibre délicat entre un générateur et un discriminateur, et les gradients disparaissant de la ReLU standard peuvent déstabiliser cette formation. Comme l'expliquent des ressources telles que le blog des développeurs de Google sur les GAN, les gradients cohérents et non nuls de la Leaky ReLU permettent aux deux réseaux d'apprendre plus efficacement, ce qui conduit à la génération de données synthétiques de meilleure qualité.
  • Modèles de détection d'objets : Les modèles de détection d'objets les plus anciens mais les plus influents, y compris certaines versions de YOLO, ont utilisé le Leaky ReLU. Dans les réseaux neuronaux convolutionnels profonds (CNN), les neurones mourants peuvent empêcher le modèle d'apprendre des caractéristiques cruciales. Le Leaky ReLU permet de s'assurer que tous les neurones restent actifs, améliorant ainsi la capacité du modèle à détecter des objets dans divers ensembles de données tels que COCO. Bien que de nombreuses architectures modernes, comme Ultralytics YOLO11, utilisent désormais des fonctions plus avancées, Leaky ReLU a joué un rôle clé dans l'établissement de leurs fondations.

Leaky ReLU vs. autres fonctions d'activation

Le Leaky ReLU est l'une des nombreuses fonctions d'activation conçues pour améliorer le ReLU original. Comprendre sa relation avec les autres fonctions permet de sélectionner la bonne fonction pour une tâche donnée.

  • ReLU : La principale différence réside dans le fait que la ReLU est totalement inactive en cas d'entrées négatives, tandis que la Leaky ReLU maintient un petit gradient constant.
  • SiLU et GELU : De nouvelles fonctions d'activation telles que SiLU (Sigmoid Linear Unit) et GELU (Gaussian Error Linear Unit) fournissent des courbes lisses et non monotones qui peuvent parfois conduire à une meilleure précision. On les trouve souvent dans des modèles avancés tels que les transformateurs. Toutefois, elles sont plus complexes sur le plan informatique que l'opération linéaire simple de la Leaky ReLU. Un aperçu détaillé des fonctions d'activation peut fournir des comparaisons supplémentaires.
  • ReLU paramétrique (PReLU) : PReLU est une variante dans laquelle le coefficient de fuite est appris pendant la formation, ce qui en fait un paramètre du modèle plutôt qu'un hyperparamètre fixe.

Le choix optimal de la fonction d'activation dépend souvent de l'architecture spécifique, de l'ensemble de données (comme celles disponibles sur Ultralytics Datasets) et des résultats de l'ajustement des hyperparamètres. Le Leaky ReLU reste un choix judicieux en raison de sa simplicité, de son faible coût de calcul et de son efficacité à prévenir la mort des neurones.

Les principaux frameworks d'apprentissage profond tels que PyTorch et TensorFlow fournissent des implémentations simples, comme le montre leur documentation officielle pour LeakyReLU de PyTorch et LeakyReLU de TensorFlow. Cette accessibilité permet aux développeurs d'expérimenter facilement et de l'intégrer dans leurs modèles à l'aide de plateformes comme Ultralytics HUB.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers