GELU aktivasyon fonksiyonunun GPT-4 gibi transformatör modellerini nasıl geliştirerek gradyan akışını, kararlılığı ve verimliliği artırdığını keşfedin.
Gauss Hata Doğrusal Birimi veya GELU, modern sinir ağlarında (NN), özellikle de transformatör modellerinde yaygın olarak kullanılan yüksek performanslı bir aktivasyon fonksiyonudur. Dan Hendrycks ve Kevin Gimpel tarafından"Gaussian Error Linear Units (GELUs)" adlı makalede önerilen GELU, ReLU gibi fonksiyonların deterministik doğasından yola çıkarak nöron aktivasyonuna olasılıksal bir yaklaşım getirmektedir. Girdileri sadece işarete göre geçitlemek yerine büyüklüklerine göre ağırlıklandırır ve dropout, zoneout ve ReLU'nun özelliklerini etkili bir şekilde birleştirir.
GELU bir nöronun çıktısını, girdi değerini bu girdiye uygulanan standart Gauss kümülatif dağılım fonksiyonunun (CDF) değeriyle çarparak belirler. Bu, aktivasyonun girdi değerinin kendisine bağlı olarak stokastik olduğu anlamına gelir. Negatif değerleri keskin bir şekilde kesen ReLU'nun aksine GELU daha yumuşak bir eğri sağlar. Daha büyük büyüklüklere sahip girdilerin korunması daha muhtemelken, sıfıra yakın girdilerin sıfırlanması daha muhtemeldir. Bu yumuşak, olasılıksal ağırlıklandırma, derin ağların eğitimi için çok önemli olan geri yayılma sırasında daha zengin temsillere ve potansiyel olarak daha iyi gradyan akışına olanak tanır.
GELU, diğer yaygın aktivasyon fonksiyonlarına kıyasla farklı özellikler sunar:
GELU, güçlü ampirik performansı nedeniyle birçok gelişmiş derin öğrenme modelinde popüler bir seçim haline gelmiştir:
Fonksiyonun düzgün doğrusal olmama ve girdi büyüklüğünü aktivasyon kararlarına dahil etme yeteneği, onu derin ağları eğitmek için etkili kılar. ReLU'dan hesaplama açısından biraz daha yoğun olsa da, performans avantajları genellikle aşağıdaki gibi çerçeveler aracılığıyla kullanılabilen büyük ölçekli modellerde kullanımını haklı çıkarır PyTorch ve TensorFlow. Ultralytics HUB gibi araçları kullanarak çeşitli modelleri keşfedebilir ve bunları eğitebilirsiniz.