Découvrez comment la fonction d'activation GELU améliore les modèles de transformateurs tels que GPT-4, en stimulant le flux de gradient, la stabilité et l'efficacité.
GELU (Gaussian Error Linear Unit) est une fonction d'activation très performante qui est devenue une norme dans les architectures de réseaux neuronaux de pointe, en particulier les modèles Transformer. Elle est connue pour sa courbe lisse et non monotone, qui aide les modèles à apprendre des modèles complexes plus efficacement que les fonctions plus anciennes. Présentée dans l'article"Gaussian Error Linear Units (GELUs)", elle combine les propriétés d'autres fonctions telles que le dropout et la ReLU pour améliorer la stabilité de l'apprentissage et les performances du modèle.
GELU offre plusieurs avantages par rapport à d'autres fonctions d'activation courantes, ce qui a conduit à son adoption généralisée.
GELU est un élément clé de nombreux modèles d'intelligence artificielle parmi les plus puissants développés à ce jour.
GELU est facilement disponible dans tous les principaux cadres d'apprentissage profond, ce qui facilite son intégration dans des modèles personnalisés.
torch.nn.GELU
avec des informations détaillées dans le site web de l documentation officielle PyTorch GELU.tf.keras.activations.gelu
qui est documenté dans le Documentation de l'API TensorFlow.Les développeurs peuvent construire, former et déployer des modèles en utilisant GELU avec des plateformes comme Ultralytics HUB, qui rationalise l'ensemble du cycle de vie MLOps, de l'augmentation des données au déploiement final du modèle.
Comment fonctionne GELU
Contrairement à la ReLU, qui coupe net toutes les valeurs négatives, la GELU pondère ses entrées en fonction de leur ampleur. Elle détermine de manière probabiliste si un neurone doit être activé en multipliant l'entrée par la fonction de distribution cumulative (FDC) de la distribution gaussienne standard. Cela signifie que les entrées sont d'autant plus susceptibles d'être "abandonnées" (mises à zéro) qu'elles sont négatives, mais la transition se fait en douceur plutôt que de manière abrupte. Cette propriété de régularisation stochastique permet d'éviter des problèmes tels que celui du gradient qui s'évanouit et permet une représentation plus riche des données, ce qui est crucial pour les modèles modernes d'apprentissage profond.