Entdecke, wie die GELU-Aktivierungsfunktion Transformatorenmodelle wie GPT-4 verbessert und den Gradientenfluss, die Stabilität und die Effizienz erhöht.
GELU (Gaussian Error Linear Unit) ist eine Aktivierungsfunktion, die häufig in modernen neuronalen Netzen verwendet wird, insbesondere in Transformer-Architekturen. Sie wurde von Dan Hendrycks und Kevin Gimpel in der Veröffentlichung"Gaussian Error Linear Units (GELUs)" vorgeschlagen und soll die Eigenschaften von Dropout, Zoneout und ReLU (Rectified Linear Unit) kombinieren, um die Modellleistung zu verbessern. Im Gegensatz zu ReLU, das negative Werte scharf abschneidet, liefert GELU eine glattere Kurve und gewichtet die Eingaben nach ihrem Betrag und nicht nur nach ihrem Vorzeichen.
Die GELU-Funktion moduliert die Eingabe auf der Grundlage ihres Wertes und entscheidet so, ob ein Neuron "aktiviert" wird. Sie multipliziert den Input mit dem Wert der kumulativen Standard-Gauß-Verteilungsfunktion (CDF), die auf diesen Input angewendet wird. Intuitiv bedeutet dies, dass Eingaben, die weiter von Null entfernt sind (sowohl positive als auch negative), mit größerer Wahrscheinlichkeit erhalten bleiben, während Eingaben, die näher an Null liegen, eine höhere Wahrscheinlichkeit haben, gelöscht zu werden. Dieser probabilistische Ansatz führt eine Form der stochastischen Regularisierung ein, die dem Dropout ähnelt, aber durch den Eingabewert selbst bestimmt wird und zu einer nicht-linearen Funktion führt, die komplexere Muster in den Daten erfassen kann.
GELU bietet Vorteile gegenüber einfacheren Aktivierungsfunktionen, was dazu beigetragen hat, dass es in modernen Modellen eingesetzt wird:
GELU ist aufgrund seiner starken empirischen Leistung zu einer beliebten Wahl in vielen fortgeschrittenen Deep Learning-Modellen geworden:
Die Fähigkeit der Funktion, glatte Nichtlinearität zu bieten und die Größe der Eingaben in die Aktivierungsentscheidungen einzubeziehen, macht sie für das Training von tiefen Netzen effektiv. Sie ist zwar etwas rechenintensiver als ReLU, aber ihre Leistungsvorteile rechtfertigen oft ihren Einsatz in großen Modellen, die mit Frameworks wie PyTorch und TensorFlow.