Scopri come il problema del gradiente di scomparsa influisce sul deep learning ed esplora soluzioni efficaci come ReLU e le connessioni residue utilizzate in Ultralytics .
Il problema del gradiente svanente è una sfida significativa che si presenta durante l'addestramento delle reti neurali artificiali profonde . Si verifica quando i gradienti, ovvero i valori che determinano quanto devono cambiare i parametri della rete, diventano incredibilmente piccoli mentre si propagano all'indietro dal livello di output ai livelli di input. Poiché questi gradienti sono essenziali per l'aggiornamento dei pesi del modello, la loro scomparsa significa che i livelli precedenti della rete smettono di apprendere. Questo fenomeno impedisce di fatto al modello di catturare modelli complessi nei dati, limitando la profondità e le prestazioni delle architetture di deep learning.
Per capire perché ciò accade, è utile esaminare il processo di retropropagazione. Durante l'addestramento, la rete calcola l'errore tra la sua previsione e l'obiettivo effettivo utilizzando una funzione di perdita. Questo errore viene quindi inviato all'indietro attraverso i livelli per regolare i pesi. Questa regolazione si basa sulla regola della catena del calcolo, che comporta la moltiplicazione delle derivate delle funzioni di attivazione livello per livello.
Se una rete utilizza funzioni di attivazione come la funzione sigmoide o la tangente iperbolica (tanh), le derivate sono spesso inferiori a 1. Quando molti di questi piccoli numeri vengono moltiplicati tra loro in una rete profonda con decine o centinaia di livelli, il risultato si avvicina allo zero. È possibile visualizzare questo fenomeno come un gioco del "telefono" in cui un messaggio viene sussurrato lungo una lunga fila di persone; quando raggiunge l'inizio della fila, il messaggio è diventato incomprensibile e la prima persona non sa cosa dire.
Il campo dell'IA ha sviluppato diverse strategie robuste per mitigare i gradienti di scomparsa, consentendo la creazione di modelli potenti come Ultralytics .
Sebbene derivino dallo stesso meccanismo sottostante (moltiplicazione ripetuta), i gradienti che svaniscono sono distinti dai gradienti che esplodono.
NaN (Non è un numero). Questo problema viene spesso risolto da
ritaglio del gradiente.
Il superamento dei gradienti di scomparsa è stato un prerequisito per il successo delle moderne applicazioni di IA.
I framework e i modelli moderni astraggono molte di queste complessità. Quando si addestra un modello come YOLO26, l'architettura include automaticamente componenti come l'attivazione SiLU e la normalizzazione batch per evitare che i gradienti scompaiano.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)