GELU aktivasyon fonksiyonunun GPT-4 gibi transformatör modellerini nasıl geliştirerek gradyan akışını, kararlılığı ve verimliliği artırdığını keşfedin.
GELU (Gauss Hata Doğrusal Birimi), modern sinir ağlarında, özellikle de Transformatör mimarilerinde yaygın olarak kullanılan bir aktivasyon fonksiyonu türüdür. Dan Hendrycks ve Kevin Gimpel tarafından"Gaussian Error Linear Units (GELUs)" adlı makalede önerilenGELU, model performansını artırmak için dropout, zoneout ve ReLU (Rectified Linear Unit) özelliklerini birleştirmeyi amaçlamaktadır. Negatif değerleri keskin bir şekilde kesen ReLU'nun aksine GELU, girdileri sadece işaretlerine göre değil büyüklüklerine göre ağırlıklandırarak daha yumuşak bir eğri sağlar.
GELU işlevi, girdiyi değerine göre modüle ederek bir nöronun "etkinleştirilip etkinleştirilmeyeceğine" etkili bir şekilde karar verir. Girdiyi, o girdiye uygulanan standart Gauss kümülatif dağılım fonksiyonunun (CDF) değeriyle çarpar. Sezgisel olarak bu, sıfırdan daha uzaktaki girdilerin (hem pozitif hem de negatif) korunma olasılığının daha yüksek olduğu, sıfıra yakın girdilerin ise sıfırlanma şansının daha yüksek olduğu anlamına gelir. Bu olasılıksal yaklaşım, bırakmaya benzer ancak girdi değerinin kendisi tarafından belirlenen bir stokastik düzenleme biçimi sunar ve verilerdeki daha karmaşık kalıpları yakalayabilen doğrusal olmayan bir işleve yol açar.
GELU, daha basit aktivasyon fonksiyonlarına göre avantajlar sunarak son teknoloji modellerde benimsenmesine katkıda bulunur:
GELU, güçlü ampirik performansı nedeniyle birçok gelişmiş derin öğrenme modelinde popüler bir seçim haline gelmiştir:
Fonksiyonun düzgün doğrusal olmama ve girdi büyüklüğünü aktivasyon kararlarına dahil etme yeteneği, onu derin ağları eğitmek için etkili kılar. ReLU'dan hesaplama açısından biraz daha yoğun olsa da, performans avantajları genellikle aşağıdaki gibi çerçeveler aracılığıyla kullanılabilen büyük ölçekli modellerde kullanımını haklı çıkarır PyTorch ve TensorFlow.