Sözlük

GELU (Gauss Hata Doğrusal Birimi)

GELU aktivasyon fonksiyonunun GPT-4 gibi transformatör modellerini nasıl geliştirerek gradyan akışını, kararlılığı ve verimliliği artırdığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Gauss Hata Doğrusal Birimi veya GELU, modern sinir ağlarında (NN), özellikle de transformatör modellerinde yaygın olarak kullanılan yüksek performanslı bir aktivasyon fonksiyonudur. Dan Hendrycks ve Kevin Gimpel tarafından"Gaussian Error Linear Units (GELUs)" adlı makalede önerilen GELU, ReLU gibi fonksiyonların deterministik doğasından yola çıkarak nöron aktivasyonuna olasılıksal bir yaklaşım getirmektedir. Girdileri sadece işarete göre geçitlemek yerine büyüklüklerine göre ağırlıklandırır ve dropout, zoneout ve ReLU'nun özelliklerini etkili bir şekilde birleştirir.

GELU Nasıl Çalışır?

GELU bir nöronun çıktısını, girdi değerini bu girdiye uygulanan standart Gauss kümülatif dağılım fonksiyonunun (CDF) değeriyle çarparak belirler. Bu, aktivasyonun girdi değerinin kendisine bağlı olarak stokastik olduğu anlamına gelir. Negatif değerleri keskin bir şekilde kesen ReLU'nun aksine GELU daha yumuşak bir eğri sağlar. Daha büyük büyüklüklere sahip girdilerin korunması daha muhtemelken, sıfıra yakın girdilerin sıfırlanması daha muhtemeldir. Bu yumuşak, olasılıksal ağırlıklandırma, derin ağların eğitimi için çok önemli olan geri yayılma sırasında daha zengin temsillere ve potansiyel olarak daha iyi gradyan akışına olanak tanır.

Diğer Aktivasyon Fonksiyonları ile Karşılaştırma

GELU, diğer yaygın aktivasyon fonksiyonlarına kıyasla farklı özellikler sunar:

  • ReLU (Doğrultulmuş Doğrusal Birim): ReLU hesaplama açısından basittir (çıktı pozitifse girdidir, aksi takdirde sıfırdır). GELU daha yumuşaktır ve monotonik değildir (negatif değerler için girdi arttıkça azalabilir), bu da bazen daha karmaşık modellerin yakalanmasına yardımcı olabilir. Ancak GELU, ReLU'ya göre hesaplama açısından daha yoğundur.
  • Sigmoid ve Tanh: Bu fonksiyonlar girdileri sabit bir aralığa sıkıştırır (Sigmoid için 0 ila 1, Tanh için -1 ila 1). Belirli bağlamlarda faydalı olsalar da (olasılıklar için çıktı katmanları gibi), derin ağlarda kaybolan gradyan sorunundan muzdarip olabilirler. GELU, ReLU gibi, pozitif değerler için bu sorunu hafifleten bir üst sınıra sahip değildir.
  • SiLU (Sigmoid Lineer Birim) / Swish: SiLU, girdiyi sigmoid ile çarpan bir başka pürüzsüz, monotonik olmayan aktivasyon fonksiyonudur. Şekil ve performans açısından GELU ile benzerlikler paylaşır ve genellikle yakın bir alternatif olarak kabul edilir. Her ikisi de güçlü ampirik sonuçlar göstermiştir.

GELU'nun Avantajları

  • Pürüzsüzlük: Yumuşak eğrisi, ReLU'daki keskin noktaya kıyasla daha iyi gradyan iniş dinamikleri sağlar.
  • Monotonik Olmama: Daha karmaşık fonksiyon yaklaşımına izin verir.
  • Olasılıksal Yorumlama: Girdi büyüklüğünü stokastik bir şekilde aktivasyon kararına dahil eder.
  • Son Teknoloji Performans: Özellikle transformatörler olmak üzere en yüksek performanslı modellerde sıklıkla kullanılır.

Dezavantajlar ve Dikkat Edilmesi Gerekenler

  • Hesaplama Maliyeti: Gauss CDF'sini hesaplamak ReLU'daki basit işlemlerden daha pahalıdır. Uygulamada genellikle verimli yaklaşımlar kullanılır.
  • Karmaşıklık: ReLU gibi daha basit işlevlere kıyasla sıfırdan anlamak ve uygulamak biraz daha karmaşıktır.

Uygulamalar ve Önem

GELU, güçlü ampirik performansı nedeniyle birçok gelişmiş derin öğrenme modelinde popüler bir seçim haline gelmiştir:

Fonksiyonun düzgün doğrusal olmama ve girdi büyüklüğünü aktivasyon kararlarına dahil etme yeteneği, onu derin ağları eğitmek için etkili kılar. ReLU'dan hesaplama açısından biraz daha yoğun olsa da, performans avantajları genellikle aşağıdaki gibi çerçeveler aracılığıyla kullanılabilen büyük ölçekli modellerde kullanımını haklı çıkarır PyTorch ve TensorFlow. Ultralytics HUB gibi araçları kullanarak çeşitli modelleri keşfedebilir ve bunları eğitebilirsiniz.

Tümünü okuyun