Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

SiLU (Sigmoid Linear Unit)

Découvrez comment la fonction d'activation SiLU (Sigmoid Linear Unit) améliore l'apprentissage profond. Découvrez pourquoi SiLU est la norme pour Ultralytics afin d'améliorer la précision.

L'unité linéaire sigmoïde, communément appelée SiLU, est une fonction d'activation très efficace utilisée dans les architectures modernes d'apprentissage profond pour introduire la non-linéarité dans les réseaux neuronaux. En déterminant comment les neurones traitent et transmettent les informations à travers les couches d'un modèle, SiLU permet aux systèmes d'apprendre des modèles complexes dans les données, fonctionnant comme une alternative plus fluide et plus sophistiquée aux fonctions en escalier traditionnelles. Souvent associée au terme « Swish » issu des premières recherches sur la recherche d'activation automatisée, la SiLU est devenue une norme dans les modèles de vision par ordinateur haute performance, y compris l'architecture de pointe YOLO26.

Fonctionnement de SiLU

À la base, la fonction SiLU fonctionne en multipliant une valeur d'entrée par sa propre transformation sigmoïde. Contrairement aux fonctions de seuil simples qui basculent brusquement un neurone entre « activé » et « désactivé », SiLU fournit une courbe lisse qui permet un traitement plus nuancé du signal. Cette structure mathématique crée des caractéristiques distinctes qui profitent au processus d'entraînement du modèle:

  • Lissage : la courbe est continue et dérivable partout. Cette propriété facilite les algorithmes d'optimisation tels que la descente de gradient en fournissant un paysage cohérent pour ajuster les poids du modèle, ce qui conduit souvent à une convergence plus rapide pendant l'entraînement.
  • Non-monotonicité : contrairement aux unités linéaires standard, SiLU est non monotone, ce qui signifie que sa sortie peut diminuer même lorsque l'entrée augmente dans certaines plages négatives. Cela permet au réseau de capturer des caractéristiques complexes et de conserver des valeurs négatives qui pourraient autrement être rejetées, contribuant ainsi à prévenir le problème de gradient disparaissant dans les réseaux profonds.
  • Auto-gating : SiLU agit comme sa propre porte, modulant la quantité d'entrée qui passe en fonction de la magnitude de l'entrée elle-même. Cela imite les mécanismes de gating que l'on trouve dans les réseaux à mémoire à court et long terme (LSTM) , mais sous une forme efficace sur le plan informatique, adaptée aux réseaux neuronaux convolutifs (CNN).

Applications concrètes

SiLU fait partie intégrante de nombreuses solutions d'IA de pointe où la précision et l'efficacité sont primordiales.

  • Perception des véhicules autonomes : dans le domaine critique pour la sécurité des véhicules autonomes, les systèmes de perception doivent identifier instantanément les piétons, les panneaux de signalisation et les obstacles. Les modèles utilisant SiLU dans leur infrastructure peuvent maintenir des vitesses d'inférenceélevées tout en effectuant avec précision la détection d'objets dans des conditions d'éclairage variables, garantissant ainsi que le véhicule réagit en toute sécurité à son environnement.
  • Diagnostic par imagerie médicale : dans le domaine de l'analyse d'images médicales, les réseaux neuronaux doivent discerner des différences de texture subtiles dans les IRM ou les scanners. La nature préservatrice de gradient de SiLU aide ces réseaux à apprendre les détails fins nécessaires à la détection précoce des tumeurs, améliorant ainsi considérablement la fiabilité des outils de diagnostic automatisés utilisés par les radiologues.

Comparaison avec des concepts connexes

Pour bien comprendre SiLU, il est utile de le distinguer des autres fonctions d'activation répertoriées dans le Ultralytics .

  • SiLU vs ReLU (unité linéaire rectifiée): ReLU est réputé pour sa rapidité et sa simplicité, générant une sortie nulle pour toutes les entrées négatives. Bien qu'efficace, cela peut entraîner l'apparition de « neurones morts » qui cessent d'apprendre. SiLU évite ce problème en autorisant un petit gradient non linéaire à circuler à travers les valeurs négatives, ce qui se traduit souvent par une meilleure précision pour les architectures profondes entraînées sur Ultralytics .
  • SiLU vs GELU (Gaussian Error Linear Unit): Ces deux fonctions sont similaires sur le plan visuel et fonctionnel. GELU est la norme pour les modèles Transformer tels que BERT et GPT, tandis que SiLU est souvent préférée pour les tâches de vision par ordinateur (CV) et les détecteurs d'objets basés sur CNN .
  • SiLU vs Sigmoid : bien que SiLU utilise la fonction Sigmoid en interne, elles remplissent des rôles différents. Sigmoid est généralement utilisée dans la couche de sortie finale pour la classification binaire afin de représenter les probabilités, tandis que SiLU est utilisée dans les couches cachées pour faciliter l'extraction des caractéristiques .

Exemple de mise en œuvre

Vous pouvez visualiser comment différentes fonctions d'activation transforment les données à l'aide de PyTorch . L'extrait de code suivant montre la différence entre ReLU (qui remplace les valeurs négatives par zéro) et SiLU (qui permet un flux négatif fluide).

import torch
import torch.nn as nn

# Input data: negative, zero, and positive values
data = torch.tensor([-2.0, 0.0, 2.0])

# Apply ReLU: Negatives become 0, positives stay unchanged
relu_out = nn.ReLU()(data)
print(f"ReLU: {relu_out}")
# Output: tensor([0., 0., 2.])

# Apply SiLU: Smooth curve, small negative value retained
silu_out = nn.SiLU()(data)
print(f"SiLU: {silu_out}")
# Output: tensor([-0.2384,  0.0000,  1.7616])

En conservant les informations dans des valeurs négatives et en fournissant un gradient régulier, SiLU joue un rôle central dans le succès des réseaux neuronaux modernes. Son adoption dans des architectures telles que YOLO26 souligne son importance pour atteindre des performances de pointe dans diverses tâches de vision par ordinateur.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant