Scopri come la funzione di attivazione GELU migliora i modelli di trasformatori come il GPT-4, aumentando il flusso del gradiente, la stabilità e l'efficienza.
La Gaussian Error Linear Unit, o GELU, è una funzione di attivazione ad alte prestazioni ampiamente utilizzata nelle moderne reti neurali (NN), in particolare nei modelli di trasformatori. Proposta nell'articolo"Gaussian Error Linear Units (GELUs)" di Dan Hendrycks e Kevin Gimpel, la GELU introduce un approccio probabilistico all'attivazione dei neuroni, allontanandosi dalla natura deterministica di funzioni come la ReLU. Pondera gli input in base alla loro entità anziché limitarsi a classificarli in base al segno, combinando in modo efficace le proprietà di dropout, zoneout e ReLU.
GELU determina l'uscita di un neurone moltiplicando il valore dell'ingresso per il valore della funzione di distribuzione cumulativa gaussiana (CDF) standard applicata a quell'ingresso. Ciò significa che l'attivazione è stocastica e dipende dal valore dell'ingresso stesso. A differenza di ReLU, che taglia bruscamente i valori negativi, GELU fornisce una curva più dolce. Gli input con grandezze maggiori hanno maggiori probabilità di essere conservati, mentre gli input più vicini allo zero hanno maggiori probabilità di essere azzerati. Questa ponderazione omogenea e probabilistica consente di ottenere rappresentazioni più ricche e un flusso di gradienti potenzialmente migliore durante la retropropagazione, che è fondamentale per l'addestramento delle reti profonde.
GELU offre caratteristiche distinte rispetto ad altre funzioni di attivazione comuni:
GELU è diventato una scelta popolare in molti modelli avanzati di deep learning grazie alle sue ottime prestazioni empiriche:
La capacità della funzione di fornire una non linearità omogenea e di incorporare l'ampiezza dell'input nelle decisioni di attivazione la rende efficace per l'addestramento di reti profonde. Sebbene sia leggermente più impegnativa dal punto di vista computazionale rispetto a ReLU, i vantaggi in termini di prestazioni ne giustificano spesso l'utilizzo in modelli su larga scala disponibili attraverso framework come PyTorch e TensorFlow. Puoi esplorare vari modelli e addestrarli utilizzando strumenti come Ultralytics HUB.