GELU (Unità lineare di errore gaussiano)

Scoprite come la funzione di attivazione GELU migliora i modelli di trasformatori come il GPT-4, aumentando il flusso del gradiente, la stabilità e l'efficienza.

GELU (Gaussian Error Linear Unit) è una funzione di attivazione ad alte prestazioni che è diventata uno standard nelle architetture di reti neurali di ultima generazione, in particolare nei modelli Transformer. È nota per la sua curva liscia e non monotona, che aiuta i modelli ad apprendere modelli complessi in modo più efficace rispetto alle funzioni precedenti. Introdotta nel documento"Gaussian Error Linear Units (GELUs)", combina le proprietà di altre funzioni come dropout e ReLU per migliorare la stabilità dell'addestramento e le prestazioni del modello.

Come funziona GELU

A differenza di ReLU, che taglia bruscamente tutti i valori negativi, GELU pondera gli ingressi in base alla loro entità. Determina probabilisticamente se attivare un neurone moltiplicando l'ingresso per la funzione di distribuzione cumulativa (CDF) della distribuzione gaussiana standard. Ciò significa che è più probabile che gli input vengano "abbandonati" (impostati a zero) quanto più sono negativi, ma la transizione è dolce anziché brusca. Questa proprietà di regolarizzazione stocastica aiuta a prevenire problemi come quello del gradiente che svanisce e consente una rappresentazione più ricca dei dati, fondamentale per i moderni modelli di apprendimento profondo.

GELU vs. altre funzioni di attivazione

GELU offre diversi vantaggi rispetto alle altre funzioni di attivazione più diffuse, che ne hanno determinato l'ampia adozione.

GELU vs. ReLU: La differenza principale è la morbidezza di GELU. Mentre ReLU è computazionalmente semplice, il suo angolo acuto a zero può talvolta portare al problema del "ReLU morente", in cui i neuroni diventano permanentemente inattivi. La curva morbida di GELU evita questo problema, facilitando una discesa del gradiente più stabile e spesso portando a una migliore precisione finale.
GELU vs. Leaky ReLU: Leaky ReLU tenta di risolvere il problema del ReLU morente consentendo una piccola pendenza negativa per gli input negativi. Tuttavia, la natura non lineare e curva di GELU fornisce una gamma di attivazione più dinamica che ha dimostrato di superare Leaky ReLU in molti compiti di apprendimento profondo.
GELU vs. SiLU (Swish): La Sigmoid Linear Unit (SiLU), nota anche come Swish, è molto simile alla GELU. Entrambe sono funzioni lisce e non monotone che hanno dimostrato prestazioni eccellenti. La scelta tra le due si riduce spesso a test empirici per un'architettura e un set di dati specifici, anche se alcune ricerche suggeriscono che SiLU può essere leggermente più efficiente in alcuni modelli di computer vision. Modelli come Ultralytics YOLO utilizzano spesso SiLU per il suo equilibrio di prestazioni ed efficienza.

Applicazioni nell'IA e nell'apprendimento profondo

GELU è un componente chiave di molti dei più potenti modelli di intelligenza artificiale sviluppati finora.

Elaborazione del linguaggio naturale (NLP): GELU è la funzione di attivazione standard nelle reti feed-forward delle architetture Transformer. Tra queste figurano modelli fondamentali come BERT e la serie GPT, che sono alla base di quasi tutti i moderni Large Language Models (LLM). La capacità di gestire modelli linguistici complessi li rende ideali per compiti come la traduzione automatica e la sintesi di testi. Per saperne di più su questi modelli, consultare le risorse di organizzazioni come Hugging Face.
Visione artificiale (CV): Dopo il successo ottenuto in NLP, GELU è stato adottato nei modelli Vision Transformer (ViT). Questi modelli applicano l'architettura Transformer a patch di immagini per compiti come la classificazione di immagini e il rilevamento di oggetti. Le prestazioni dei ViT hanno dimostrato l'efficacia di GELU nell'elaborazione delle informazioni visive, sfidando il dominio delle tradizionali reti neurali convoluzionali (CNN).

Implementazione e utilizzo

GELU è facilmente disponibile in tutti i principali framework di deep learning, il che ne facilita l'integrazione in modelli personalizzati.

PyTorch: Implementato come torch.nn.GELUcon informazioni dettagliate nella sezione documentazione ufficiale di PyTorch GELU.
TensorFlow: Disponibile come tf.keras.activations.gelu, che è documentato nel file Documentazione dell'API di TensorFlow.

Gli sviluppatori possono costruire, addestrare e distribuire modelli utilizzando GELU con piattaforme come Ultralytics HUB, che semplifica l'intero ciclo di vita MLOps, dall'incremento dei dati alla distribuzione finale del modello.

GELU (Unità lineare di errore gaussiano)

Soluzione flessibile di licensing aziendale per alimentare la vostra innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestrare i modelli YOLO in modo semplice con Ultralytics HUB

Come funziona GELU

GELU vs. altre funzioni di attivazione

Applicazioni nell'IA e nell'apprendimento profondo

Implementazione e utilizzo

Per saperne di più in questa categoria

Conoscere la produzione additiva: Tecnologia e casi d'uso

Monitoraggio delle operazioni aeroportuali a terra con Ultralytics YOLO11

L'evoluzione e il futuro della robotica nella produzione

Unitevi alla comunità di Ultralytics