Sözlük

GELU (Gauss Hata Doğrusal Birimi)

GELU aktivasyon fonksiyonunun GPT-4 gibi transformatör modellerini nasıl geliştirerek gradyan akışını, kararlılığı ve verimliliği artırdığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

GELU (Gauss Hata Doğrusal Birimi), modern sinir ağlarında, özellikle de Transformatör mimarilerinde yaygın olarak kullanılan bir aktivasyon fonksiyonu türüdür. Dan Hendrycks ve Kevin Gimpel tarafından"Gaussian Error Linear Units (GELUs)" adlı makalede önerilenGELU, model performansını artırmak için dropout, zoneout ve ReLU (Rectified Linear Unit) özelliklerini birleştirmeyi amaçlamaktadır. Negatif değerleri keskin bir şekilde kesen ReLU'nun aksine GELU, girdileri sadece işaretlerine göre değil büyüklüklerine göre ağırlıklandırarak daha yumuşak bir eğri sağlar.

GELU Nasıl Çalışır?

GELU işlevi, girdiyi değerine göre modüle ederek bir nöronun "etkinleştirilip etkinleştirilmeyeceğine" etkili bir şekilde karar verir. Girdiyi, o girdiye uygulanan standart Gauss kümülatif dağılım fonksiyonunun (CDF) değeriyle çarpar. Sezgisel olarak bu, sıfırdan daha uzaktaki girdilerin (hem pozitif hem de negatif) korunma olasılığının daha yüksek olduğu, sıfıra yakın girdilerin ise sıfırlanma şansının daha yüksek olduğu anlamına gelir. Bu olasılıksal yaklaşım, bırakmaya benzer ancak girdi değerinin kendisi tarafından belirlenen bir stokastik düzenleme biçimi sunar ve verilerdeki daha karmaşık kalıpları yakalayabilen doğrusal olmayan bir işleve yol açar.

GELU ve Diğer Aktivasyon Fonksiyonları

GELU, daha basit aktivasyon fonksiyonlarına göre avantajlar sunarak son teknoloji modellerde benimsenmesine katkıda bulunur:

  • ReLU: ReLU hesaplama açısından basittir, ancak nöronların negatif girdiler için inaktif hale geldiği ve potansiyel olarak öğrenmeyi engelleyen "ölen ReLU" probleminden muzdarip olabilir. GELU'nun yumuşak eğrisi, özellikle negatif değerler için gradyanların daha kolay akmasını sağlar ve potansiyel olarak bu sorunu hafifletir.
  • Sızdıran ReLU: Leaky ReLU, negatif girdiler için küçük, sıfır olmayan bir gradyana izin vererek ölmekte olan ReLU sorununu ele alırken, negatif alanda basit bir doğrusal ilişki sürdürür. GELU daha karmaşık, doğrusal olmayan bir dönüşüm sunar.
  • SiLU (Swish): SiLU (Sigmoid Lineer Birim), genellikle GELU'ya benzer şekilde performans gösteren bir başka yumuşak aktivasyon fonksiyonudur. GELU ve SiLU arasındaki seçim, genellikle ampirik testler veya hiperparametre ayarlaması yoluyla belirlenen belirli mimariye ve veri kümesine bağlı olabilir.

Uygulamalar ve Önem

GELU, güçlü ampirik performansı nedeniyle birçok gelişmiş derin öğrenme modelinde popüler bir seçim haline gelmiştir:

  1. Doğal Dil İşleme (NLP): BERT ve GPT modelleri gibi Dönüştürücü tabanlı modellerde yaygın olarak kullanılır ve metin oluşturma ve doğal dil anlama gibi görevlerdeki başarılarına katkıda bulunur.
  2. Bilgisayarla Görme: GELU ayrıca Görme Dönüştürücülerinde (ViT) ve sonraki görme modellerinde de bulunur. Örneğin, Ultralytics YOLOv9 'da kullanılan Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) gibi bileşenler, YOLOv9 makalesinde ayrıntılı olarak açıklandığı gibi, özellik çıkarımını geliştirmek ve nesne algılama görevlerinde doğruluğu artırmak için GELU'yu kullanır.

Fonksiyonun düzgün doğrusal olmama ve girdi büyüklüğünü aktivasyon kararlarına dahil etme yeteneği, onu derin ağları eğitmek için etkili kılar. ReLU'dan hesaplama açısından biraz daha yoğun olsa da, performans avantajları genellikle aşağıdaki gibi çerçeveler aracılığıyla kullanılabilen büyük ölçekli modellerde kullanımını haklı çıkarır PyTorch ve TensorFlow.

Tümünü okuyun