Scoprite come la funzione di attivazione GELU migliora i modelli di trasformatori come il GPT-4, aumentando il flusso del gradiente, la stabilità e l'efficienza.
GELU (Gaussian Error Linear Unit) è una funzione di attivazione ad alte prestazioni che è diventata uno standard nelle architetture di reti neurali di ultima generazione, in particolare nei modelli Transformer. È nota per la sua curva liscia e non monotona, che aiuta i modelli ad apprendere modelli complessi in modo più efficace rispetto alle funzioni precedenti. Introdotta nel documento"Gaussian Error Linear Units (GELUs)", combina le proprietà di altre funzioni come dropout e ReLU per migliorare la stabilità dell'addestramento e le prestazioni del modello.
A differenza di ReLU, che taglia bruscamente tutti i valori negativi, GELU pondera gli ingressi in base alla loro entità. Determina probabilisticamente se attivare un neurone moltiplicando l'ingresso per la funzione di distribuzione cumulativa (CDF) della distribuzione gaussiana standard. Ciò significa che è più probabile che gli input vengano "abbandonati" (impostati a zero) quanto più sono negativi, ma la transizione è dolce anziché brusca. Questa proprietà di regolarizzazione stocastica aiuta a prevenire problemi come quello del gradiente che svanisce e consente una rappresentazione più ricca dei dati, fondamentale per i moderni modelli di apprendimento profondo.
GELU offre diversi vantaggi rispetto alle altre funzioni di attivazione più diffuse, che ne hanno determinato l'ampia adozione.
GELU è un componente chiave di molti dei più potenti modelli di intelligenza artificiale sviluppati finora.
GELU è facilmente disponibile in tutti i principali framework di deep learning, il che ne facilita l'integrazione in modelli personalizzati.
torch.nn.GELU
con informazioni dettagliate nella sezione documentazione ufficiale di PyTorch GELU.tf.keras.activations.gelu
, che è documentato nel file Documentazione dell'API di TensorFlow.Gli sviluppatori possono costruire, addestrare e distribuire modelli utilizzando GELU con piattaforme come Ultralytics HUB, che semplifica l'intero ciclo di vita MLOps, dall'incremento dei dati alla distribuzione finale del modello.