Erfahren Sie, wie sich das Problem des verschwindenden Gradienten auf Deep Learning auswirkt, und entdecken Sie effektive Lösungen wie ReLU und Restverbindungen, die in Ultralytics verwendet werden.
Das Problem des verschwindenden Gradienten ist eine große Herausforderung, die beim Training tiefer künstlicher neuronaler Netze auftritt. Es tritt auf, wenn die Gradienten – die Werte, die bestimmen, wie stark sich die Parameter des Netzes ändern sollten – unglaublich klein werden, wenn sie sich von der Ausgabeschicht zu den Eingabeschichten rückwärts ausbreiten. Da diese Gradienten für die Aktualisierung der Modellgewichte unerlässlich sind, bedeutet ihr Verschwinden, dass die früheren Schichten des Netzes nicht mehr lernen. Dieses Phänomen verhindert effektiv, dass das Modell komplexe Muster in den Daten erfasst, wodurch die Tiefe und Leistung von Deep-Learning-Architekturen eingeschränkt wird.
Um zu verstehen, warum dies geschieht, ist es hilfreich, sich den Prozess der Rückpropagation anzusehen. Während des Trainings berechnet das Netzwerk den Fehler zwischen seiner Vorhersage und dem tatsächlichen Ziel unter Verwendung einer Verlustfunktion. Dieser Fehler wird dann rückwärts durch die Schichten gesendet, um die Gewichte anzupassen. Diese Anpassung basiert auf der Kettenregel der Infinitesimalrechnung, bei der die Ableitungen der Aktivierungsfunktionen Schicht für Schicht multipliziert werden.
Wenn ein Netzwerk Aktivierungsfunktionen wie die Sigmoid-Funktion oder die hyperbolische Tangente (tanh) verwendet, sind die Ableitungen oft kleiner als 1. Wenn viele dieser kleinen Zahlen in einem tiefen Netzwerk mit Dutzenden oder Hunderten von Schichten miteinander multipliziert werden, nähert sich das Ergebnis Null. Man kann sich das wie eine Runde „Stille Post” vorstellen, bei der eine Nachricht entlang einer langen Reihe von Personen weitergeflüstert wird; wenn sie den Anfang der Reihe erreicht, ist die Nachricht nicht mehr zu verstehen und die erste Person weiß nicht, was sie sagen soll.
Im Bereich der KI wurden mehrere robuste Strategien zur Minderung verschwindender Gradienten entwickelt, die die Erstellung leistungsstarker Modelle wie Ultralytics ermöglichen.
Obwohl sie auf dem gleichen zugrunde liegenden Mechanismus beruhen (wiederholte Multiplikation), unterscheiden sich verschwindende Gradienten von explodierenden Gradienten.
NaN (Keine Zahl). Dies wird oft behoben durch
Gradientenbeschneidung.
Die Überwindung verschwindender Gradienten war eine Voraussetzung für den Erfolg moderner KI-Anwendungen.
Moderne Frameworks und Modelle abstrahieren viele dieser Komplexitäten. Wenn Sie ein Modell wie YOLO26 trainieren, beinhaltet die Architektur automatisch Komponenten wie SiLU-Aktivierung und Batch-Normalisierung, um zu verhindern, dass Gradienten verschwinden.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)