Découvre comment la fonction d'activation SiLU (Swish) booste les performances de l'apprentissage profond dans les tâches d'IA telles que la détection d'objets et le NLP.
L'unité linéaire sigmoïde (SiLU), également connue sous le nom de fonction Swish, est une fonction d'activation utilisée dans les réseaux neuronaux (RN). Les fonctions d'activation sont des composants essentiels qui introduisent la non-linéarité dans le réseau, ce qui lui permet d'apprendre des modèles complexes à partir des données. SiLU a été développée par des chercheurs de Google Brain et a gagné en popularité en raison de son efficacité dans diverses tâches d'apprentissage profond, surpassant souvent des fonctions plus anciennes comme ReLU dans des modèles plus profonds.
L'importance de SiLU vient de ses propriétés uniques qui peuvent conduire à une amélioration des performances du modèle et de la dynamique de l'entraînement. Contrairement à la fonction ReLU largement utilisée, SiLU est lisse et non monotone. Cela signifie que sa sortie n'augmente pas strictement avec son entrée, ce qui lui permet de modéliser des fonctions plus complexes. Le caractère lisse aide à l'optimisation basée sur le gradient, en évitant les changements brusques pendant l'entraînement. Les recherches, y compris l'article original de Swish, suggèrent que le remplacement de ReLU par SiLU peut améliorer la précision de la classification sur des ensembles de données difficiles comme ImageNet, en particulier dans les réseaux très profonds. Son mécanisme d'autoguidage aide à réguler le flux d'informations, ce qui permet d'atténuer des problèmes comme celui du gradient qui s'évanouit.
SiLU offre un profil différent par rapport aux autres fonctions d'activation courantes :
SiLU est polyvalent et a été appliqué avec succès dans divers domaines où des modèles d'apprentissage profond sont utilisés :
SiLU est facilement disponible dans les principaux cadres d'apprentissage profond tels que. PyTorch (comme torch.nn.SiLU
, documenté ici) et TensorFlow (comme tf.keras.activations.swish
, documenté ici). Des plateformes comme Ultralytics HUB soutien formation et déploiement des modèles qui utilisent des composants aussi avancés.