Glossario

SiLU (Unità lineare sigmoidea)

Scopri come la funzione di attivazione SiLU (Swish) aumenta le prestazioni dell'apprendimento profondo in attività di AI come il rilevamento di oggetti e l'NLP.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

SiLU (Sigmoid Linear Unit), nota anche come funzione Swish, è una funzione di attivazione utilizzata nei modelli di deep learning (DL), in particolare nelle reti neurali (NN). È stata proposta dai ricercatori di Google e ha guadagnato popolarità grazie alla sua efficacia nel migliorare le prestazioni del modello rispetto alle funzioni di attivazione tradizionali come ReLU e Sigmoid. SiLU è apprezzata per la sua morbidezza e per le sue proprietà non monotone, che possono aiutare il flusso di gradienti e l'ottimizzazione del modello. Per una comprensione più ampia, consulta una panoramica generale sulle funzioni di attivazione.

Come funziona SiLU

SiLU è definito come il prodotto dell'input e del Sigmoide applicata all'ingresso. In sostanza, SiLU(x) = x * sigmoid(x). Questa formulazione permette a SiLU di agire come un meccanismo di autoregolazione, in cui la componente sigmoide determina la misura in cui l'ingresso lineare x viene attraversato. Quando l'uscita sigmoide è vicina a 1, l'ingresso passa quasi invariato (simile a ReLU per i valori positivi), mentre quando è vicina a 0, l'uscita viene soppressa verso lo zero. A differenza della ReLU, la SiLU è liscia e non monotona (può diminuire anche quando l'ingresso aumenta), proprietà derivate dalla sua Dettagli sulla funzione sigmoidea componente. Il concetto è stato illustrato nel documento carta Swish originale.

Vantaggi di SiLU

SiLU offre diversi vantaggi che contribuiscono alla sua efficacia nei modelli di deep learning:

  • Morbidezza: A differenza di ReLU, SiLU è una funzione liscia, ovvero la sua derivata è continua. Questa scorrevolezza può essere vantaggiosa per gli algoritmi di ottimizzazione basati sul gradiente durante la retropropagazione, in quanto porta a un addestramento più stabile.
  • Non monotonicità: La forma della funzione, che scende leggermente per gli input negativi prima di risalire verso lo zero, potrebbe aiutare la rete a rappresentare modelli più complessi.
  • Evitare i gradienti che svaniscono: Mentre le funzioni sigmoidi possono soffrire in modo significativo del problema del gradiente che svanisce nelle reti profonde, SiLU attenua questo problema, soprattutto per gli ingressi positivi dove si comporta in modo lineare, come ReLU.
  • Miglioramento delle prestazioni: Studi empirici hanno dimostrato che la sostituzione di ReLU con SiLU può portare a miglioramenti nell'accuratezza del modello in vari compiti e in vari set di dati, in particolare nelle architetture più profonde.

Confronto con altre funzioni di attivazione

SiLU si distingue da altre funzioni di attivazione comuni:

  • ReLU: ReLU è computazionalmente più semplice (max(0, x)) e lineare per i valori positivi, ma soffre del problema del "ReLU morente" in cui i neuroni possono diventare inattivi per gli input negativi. Vedi un Spiegazione di ReLU. SiLU è fluido ed evita questo problema grazie al suo output non nullo per i valori negativi.
  • Sigmoide: La sigmoide mappa gli ingressi in un intervallo compreso tra 0 e 1, ma soffre di saturazione e di gradienti che svaniscono, il che la rende meno adatta agli strati nascosti delle reti profonde rispetto alla SiLU.
  • Leaky ReLU: Leaky ReLU risolve il problema del ReLU morente consentendo un gradiente piccolo e non nullo per gli input negativi. SiLU offre un profilo diverso e più uniforme.
  • GELU: GELU (Gaussian Error Linear Unit) è un'altra funzione di attivazione morbida che spesso ha prestazioni simili a SiLU. SiLU è generalmente considerata leggermente più semplice dal punto di vista computazionale rispetto a GELU.

Applicazioni di SiLU

SiLU è versatile ed è stato applicato con successo in diversi ambiti in cui si utilizzano modelli di deep learning:

Implementazione

SiLU è facilmente disponibile nei principali framework di deep learning:

Piattaforme come Ultralytics HUB supportano l'addestramento dei modelli e l'esplorazione di varie opzioni di distribuzione per i modelli che utilizzano componenti avanzati come SiLU. La ricerca continua e le risorse di organizzazioni come DeepLearning.AI aiutano i professionisti a sfruttare queste funzioni in modo efficace.

Leggi tutto