Découvrez comment le problème du gradient décroissant affecte l'apprentissage profond et explorez des solutions efficaces telles que ReLU et les connexions résiduelles utilisées dans Ultralytics .
Le problème de la disparition des gradients est un défi majeur rencontré lors de l'entraînement des réseaux neuronaux artificiels profonds . Il se produit lorsque les gradients (les valeurs qui déterminent l'ampleur des changements à apporter aux paramètres du réseau) deviennent extrêmement faibles à mesure qu'ils se propagent vers l'arrière, de la couche de sortie vers les couches d'entrée. Ces gradients étant essentiels à la mise à jour des pondérations du modèle, leur disparition signifie que les premières couches du réseau cessent d'apprendre. Ce phénomène empêche effectivement le modèle de capturer des modèles complexes dans les données, limitant ainsi la profondeur et les performances des architectures d'apprentissage profond.
Pour comprendre pourquoi, il est utile d'examiner le processus de rétropropagation. Pendant l'entraînement, le réseau calcule l'erreur entre sa prédiction et la cible réelle à l'aide d'une fonction de perte. Cette erreur est ensuite renvoyée en arrière à travers les couches afin d'ajuster les poids. Cet ajustement repose sur la règle de dérivation en chaîne, qui consiste à multiplier les dérivées des fonctions d'activation couche par couche.
Si un réseau utilise des fonctions d'activation telles que la fonction sigmoïde ou la tangente hyperbolique (tanh), les dérivées sont souvent inférieures à 1. Lorsque plusieurs de ces petits nombres sont multipliés entre eux dans un réseau profond comportant des dizaines ou des centaines de couches, le résultat tend vers zéro. Vous pouvez visualiser cela comme un jeu de « téléphone sans fil » où un message est chuchoté à une longue file de personnes ; lorsqu'il revient au début de la file, le message est devenu inaudible et la première personne ne sait plus quoi dire.
Le domaine de l'IA a développé plusieurs stratégies robustes pour atténuer les gradients de disparition, permettant la création de modèles puissants comme Ultralytics .
Bien qu'ils proviennent du même mécanisme sous-jacent (multiplication répétée), les gradients de disparition sont distincts des gradients d'explosion.
NaN (Ce n'est pas un nombre). Ce problème est souvent résolu par
écrêtage du gradient.
Surmonter les gradients décroissants a été une condition préalable au succès des applications modernes d'IA.
Les frameworks et modèles modernes font abstraction d'une grande partie de ces complexités. Lorsque vous entraînez un modèle tel que YOLO26, l'architecture inclut automatiquement des composants tels que l'activation SiLU et la normalisation par lots afin d'empêcher les gradients de disparaître.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)