Glossaire

Leaky ReLU

Découvre la puissance de l'activation de la ReLU fuyante pour l'IA et la ML. Résous le problème de la ReLU mourante et augmente les performances des modèles en CV, NLP, GANs, et plus encore !

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Leaky Rectified Linear Unit, communément appelé Leaky ReLU, est une fonction d'activation utilisée dans les réseaux neuronaux (NN), notamment au sein des modèles de Deep Learning (DL). Il s'agit d'une version modifiée de la fonction d'activation standard Rectified Linear Unit (ReLU), conçue spécifiquement pour résoudre le problème de la "ReLU mourante". Ce problème survient lorsque les neurones deviennent inactifs et produisent zéro pour toute entrée, ce qui les empêche effectivement d'apprendre pendant le processus de formation en raison des gradients nuls pendant la rétropropagation.

Comment fonctionne Leaky ReLU

Comme la ReLU, la Leaky ReLU émet directement l'entrée si elle est positive. Cependant, contrairement à la ReLU qui produit zéro pour toute entrée négative, la Leaky ReLU autorise un petit gradient (pente) constant, non nul, pour les entrées négatives. Cette "fuite" garantit que les neurones restent actifs même lorsque leur entrée est négative, ce qui permet aux gradients de circuler en sens inverse dans le réseau et de poursuivre l'apprentissage. La petite pente est généralement une valeur fixe (par exemple, 0,01), mais des variantes comme la ReLU paramétrique (PReLU) permettent d'apprendre cette pente au cours de la formation.

S'attaquer au problème du ReLU mourant

La motivation première de Leaky ReLU est d'atténuer le problème de la ReLU mourante. Lorsqu'un neurone ReLU standard reçoit une entrée négative importante, sa sortie devient nulle. Si le gradient qui remonte pendant l'apprentissage est également nul, les poids du neurone ne seront pas mis à jour et il risque de rester définitivement inactif pour toutes les entrées. Le Leaky ReLU empêche cela en s'assurant qu'un petit gradient non nul existe toujours, même pour les entrées négatives, empêchant ainsi les neurones de mourir complètement et améliorant la robustesse du processus de formation, en particulier dans les réseaux très profonds où le problème du gradient disparaissant peut également être préoccupant.

Pertinence et applications dans l'IA et la ML

Le Leaky ReLU est un outil précieux dans les scénarios où le maintien de neurones actifs tout au long de la formation est essentiel. Son efficacité informatique, similaire à celle de la ReLU standard, la rend adaptée aux modèles à grande échelle. Les principales applications sont les suivantes :

Fuite de ReLU par rapport aux autres fonctions d'activation

Par rapport à la ReLU standard, le principal avantage de la Leaky ReLU est d'éviter le problème du neurone mourant. D'autres fonctions d'activation comme ELU (Exponential Linear Unit) ou SiLU (Sigmoid Linear Unit) s'attaquent également à ce problème, offrant parfois des avantages tels que des gradients plus lisses, comme on peut le voir dans des modèles tels que Ultralytics YOLOv8. Cependant, ces alternatives, telles que l'ELU, peuvent être plus coûteuses en termes de calcul que la Leaky ReLU(voir les comparaisons des fonctions d'activation). Le choix optimal dépend souvent de l'architecture spécifique du réseau neuronal, de l'ensemble de données (comme ceux que l'on trouve sur Ultralytics Datasets) et des résultats empiriques obtenus grâce à des processus tels que le réglage des hyperparamètres. Des outils comme PyTorchPyTorch Docs) et TensorFlowTensorFlow Docs) fournissent des implémentations faciles pour diverses fonctions d'activation, facilitant l'expérimentation au sein de plateformes comme Ultralytics HUB.

Tout lire