Glossaire

GELU (unité linéaire d'erreur gaussienne)

Découvrez comment la fonction d'activation GELU améliore les modèles de transformateurs tels que GPT-4, en stimulant le flux de gradient, la stabilité et l'efficacité.

GELU (Gaussian Error Linear Unit) est une fonction d'activation très performante qui est devenue une norme dans les architectures de réseaux neuronaux de pointe, en particulier les modèles Transformer. Elle est connue pour sa courbe lisse et non monotone, qui aide les modèles à apprendre des modèles complexes plus efficacement que les fonctions plus anciennes. Présentée dans l'article"Gaussian Error Linear Units (GELUs)", elle combine les propriétés d'autres fonctions telles que le dropout et la ReLU pour améliorer la stabilité de l'apprentissage et les performances du modèle.

Comment fonctionne GELU

Contrairement à la ReLU, qui coupe net toutes les valeurs négatives, la GELU pondère ses entrées en fonction de leur ampleur. Elle détermine de manière probabiliste si un neurone doit être activé en multipliant l'entrée par la fonction de distribution cumulative (FDC) de la distribution gaussienne standard. Cela signifie que les entrées sont d'autant plus susceptibles d'être "abandonnées" (mises à zéro) qu'elles sont négatives, mais la transition se fait en douceur plutôt que de manière abrupte. Cette propriété de régularisation stochastique permet d'éviter des problèmes tels que celui du gradient qui s'évanouit et permet une représentation plus riche des données, ce qui est crucial pour les modèles modernes d'apprentissage profond.

GELU vs. autres fonctions d'activation

GELU offre plusieurs avantages par rapport à d'autres fonctions d'activation courantes, ce qui a conduit à son adoption généralisée.

  • GELU vs. ReLU: La principale différence est la douceur de GELU. Bien que la ReLU soit simple sur le plan informatique, son angle aigu à zéro peut parfois entraîner le problème de la "ReLU mourante", où les neurones deviennent définitivement inactifs. La courbe lisse de GELU évite ce problème, facilitant une descente de gradient plus stable et conduisant souvent à une meilleure précision finale.
  • GELU contre Leaky ReLU: Le Leaky ReLU tente de résoudre le problème de la ReLU mourante en autorisant une petite pente négative pour les entrées négatives. Cependant, la nature non linéaire et incurvée de la GELU offre une plage d'activation plus dynamique qui s'est avérée plus performante que celle de la Leaky ReLU dans de nombreuses tâches d'apprentissage profond.
  • GELU vs. SiLU (Swish): L'unité linéaire sigmoïde (SiLU), également connue sous le nom de Swish, est très similaire à GELU. Il s'agit dans les deux cas de fonctions lisses et non monotones qui ont fait preuve d'excellentes performances. Le choix entre les deux se résume souvent à des tests empiriques pour une architecture et un ensemble de données spécifiques, bien que certaines recherches suggèrent que SiLU peut être légèrement plus efficace dans certains modèles de vision par ordinateur. Des modèles comme Ultralytics YOLO utilisent souvent SiLU pour son équilibre entre performance et efficacité.

Applications dans le domaine de l'IA et de l'apprentissage profond

GELU est un élément clé de nombreux modèles d'intelligence artificielle parmi les plus puissants développés à ce jour.

Mise en œuvre et utilisation

GELU est facilement disponible dans tous les principaux cadres d'apprentissage profond, ce qui facilite son intégration dans des modèles personnalisés.

Les développeurs peuvent construire, former et déployer des modèles en utilisant GELU avec des plateformes comme Ultralytics HUB, qui rationalise l'ensemble du cycle de vie MLOps, de l'augmentation des données au déploiement final du modèle.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers