GELU (unité linéaire d'erreur gaussienne)

Découvrez comment la fonction d'activation GELU améliore les modèles de transformateurs tels que GPT-4, en stimulant le flux de gradient, la stabilité et l'efficacité.

GELU (Gaussian Error Linear Unit) est une fonction d'activation très performante qui est devenue une norme dans les architectures de réseaux neuronaux de pointe, en particulier les modèles Transformer. Elle est connue pour sa courbe lisse et non monotone, qui aide les modèles à apprendre des modèles complexes plus efficacement que les fonctions plus anciennes. Présentée dans l'article"Gaussian Error Linear Units (GELUs)", elle combine les propriétés d'autres fonctions telles que le dropout et la ReLU pour améliorer la stabilité de l'apprentissage et les performances du modèle.

Comment fonctionne GELU

Contrairement à la ReLU, qui coupe net toutes les valeurs négatives, la GELU pondère ses entrées en fonction de leur ampleur. Elle détermine de manière probabiliste si un neurone doit être activé en multipliant l'entrée par la fonction de distribution cumulative (FDC) de la distribution gaussienne standard. Cela signifie que les entrées sont d'autant plus susceptibles d'être "abandonnées" (mises à zéro) qu'elles sont négatives, mais la transition se fait en douceur plutôt que de manière abrupte. Cette propriété de régularisation stochastique permet d'éviter des problèmes tels que celui du gradient qui s'évanouit et permet une représentation plus riche des données, ce qui est crucial pour les modèles modernes d'apprentissage profond.

GELU vs. autres fonctions d'activation

GELU offre plusieurs avantages par rapport à d'autres fonctions d'activation courantes, ce qui a conduit à son adoption généralisée.

GELU vs. ReLU: La principale différence est la douceur de GELU. Bien que la ReLU soit simple sur le plan informatique, son angle aigu à zéro peut parfois entraîner le problème de la "ReLU mourante", où les neurones deviennent définitivement inactifs. La courbe lisse de GELU évite ce problème, facilitant une descente de gradient plus stable et conduisant souvent à une meilleure précision finale.
GELU contre Leaky ReLU: Le Leaky ReLU tente de résoudre le problème de la ReLU mourante en autorisant une petite pente négative pour les entrées négatives. Cependant, la nature non linéaire et incurvée de la GELU offre une plage d'activation plus dynamique qui s'est avérée plus performante que celle de la Leaky ReLU dans de nombreuses tâches d'apprentissage profond.
GELU vs. SiLU (Swish): L'unité linéaire sigmoïde (SiLU), également connue sous le nom de Swish, est très similaire à GELU. Il s'agit dans les deux cas de fonctions lisses et non monotones qui ont fait preuve d'excellentes performances. Le choix entre les deux se résume souvent à des tests empiriques pour une architecture et un ensemble de données spécifiques, bien que certaines recherches suggèrent que SiLU peut être légèrement plus efficace dans certains modèles de vision par ordinateur. Des modèles comme Ultralytics YOLO utilisent souvent SiLU pour son équilibre entre performance et efficacité.

Applications dans le domaine de l'IA et de l'apprentissage profond

GELU est un élément clé de nombreux modèles d'intelligence artificielle parmi les plus puissants développés à ce jour.

Traitement du langage naturel (NLP): GELU est la fonction d'activation standard dans les réseaux feed-forward des architectures Transformer. Cela inclut des modèles fondamentaux tels que BERT et la série GPT, qui sont à la base de presque tous les grands modèles de langage (LLM) modernes. Sa capacité à traiter des modèles linguistiques complexes en fait un outil idéal pour des tâches telles que la traduction automatique et le résumé de texte. Pour en savoir plus sur ces modèles, consultez les ressources d'organisations telles que Hugging Face.
Vision par ordinateur (CV): Suite à son succès dans le domaine du NLP, GELU a été adopté dans les modèles Vision Transformer (ViT). Ces modèles appliquent l'architecture Transformer à des patchs d'images pour des tâches telles que la classification d'images et la détection d'objets. Les performances des ViT ont démontré l'efficacité de GELU dans le traitement des informations visuelles, remettant en cause la domination des réseaux neuronaux convolutionnels (CNN) traditionnels.

Mise en œuvre et utilisation

GELU est facilement disponible dans tous les principaux cadres d'apprentissage profond, ce qui facilite son intégration dans des modèles personnalisés.

PyTorch: Mis en œuvre en tant que torch.nn.GELUavec des informations détaillées dans le site web de l documentation officielle PyTorch GELU.
TensorFlow: Disponible en tf.keras.activations.geluqui est documenté dans le Documentation de l'API TensorFlow.

Les développeurs peuvent construire, former et déployer des modèles en utilisant GELU avec des plateformes comme Ultralytics HUB, qui rationalise l'ensemble du cycle de vie MLOps, de l'augmentation des données au déploiement final du modèle.

GELU (unité linéaire d'erreur gaussienne)

Une solution flexible de licences d'entreprise pour stimuler votre innovation

Entraîner des modèles d'IA en quelques secondes avec Ultralytics YOLO

Former des modèles YOLO en toute simplicité avec Ultralytics HUB

Comment fonctionne GELU

GELU vs. autres fonctions d'activation

Applications dans le domaine de l'IA et de l'apprentissage profond

Mise en œuvre et utilisation

Plus d'informations dans cette catégorie

Comprendre la fabrication additive : Technologie et cas d'utilisation

Suivi des opérations au sol dans les aéroports avec Ultralytics YOLO11

L'évolution et l'avenir de la robotique dans l'industrie manufacturière

Rejoindre la communauté Ultralytics