Sözlük

GELU (Gauss Hata Doğrusal Birimi)

GELU aktivasyon fonksiyonunun GPT-4 gibi transformatör modellerini nasıl geliştirerek gradyan akışını, kararlılığı ve verimliliği artırdığını keşfedin.

GELU (Gaussian Error Linear Unit), özellikle Transformer modelleri olmak üzere son teknoloji sinir ağı mimarilerinde bir standart haline gelen yüksek performanslı bir aktivasyon fonksiyon udur. Yumuşak, monotonik olmayan eğrisiyle bilinir ve modellerin karmaşık örüntüleri eski işlevlerden daha etkili bir şekilde öğrenmesine yardımcı olur."Gaussian Error Linear Units (GELUs)" adlı makalede tanıtılan bu fonksiyon, eğitim kararlılığını ve model performansını iyileştirmek için dropout ve ReLU gibi diğer fonksiyonların özelliklerini bir araya getirmektedir.

GELU Nasıl Çalışır?

Tüm negatif değerleri keskin bir şekilde kesen ReLU'nun aksine GELU, girdilerini büyüklüklerine göre ağırlıklandırır. Bir nöronun etkinleştirilip etkinleştirilmeyeceğini, girdiyi standart Gauss dağılımının kümülatif dağılım fonksiyonu (CDF) ile çarparak olasılıksal olarak belirler. Bu, girdilerin ne kadar negatif olursa "düşürülme" (sıfıra ayarlanma) olasılığının o kadar yüksek olduğu, ancak geçişin ani değil yumuşak olduğu anlamına gelir. Bu stokastik düzenleme özelliği, kaybolan gradyan sorunu gibi sorunların önlenmesine yardımcı olur ve modern derin öğrenme modelleri için çok önemli olan verilerin daha zengin bir şekilde temsil edilmesini sağlar.

GELU ve Diğer Aktivasyon Fonksiyonları

GELU, diğer popüler aktivasyon fonksiyonlarına göre çeşitli avantajlar sunmakta ve bu da yaygın olarak benimsenmesine yol açmaktadır.

  • GELU vs. ReLU: Birincil fark GELU'nun pürüzsüzlüğüdür. ReLU hesaplama açısından basit olsa da, sıfırdaki keskin köşesi bazen nöronların kalıcı olarak inaktif hale geldiği "ölen ReLU" sorununa yol açabilir. GELU'nun yumuşak eğrisi bu sorunu önleyerek daha istikrarlı bir gradyan inişini kolaylaştırır ve genellikle daha iyi nihai doğruluğa yol açar.
  • GELU veSızdıran ReLU: Sızıntılı ReLU, negatif girdiler için küçük, negatif bir eğime izin vererek ölmekte olan ReLU sorununu çözmeye çalışır. Ancak GELU'nun doğrusal olmayan, kavisli yapısı, birçok derin öğrenme görevinde Leaky ReLU'dan daha iyi performans gösterdiği gösterilen daha dinamik bir aktivasyon aralığı sağlar.
  • GELU vs SiLU (Swish): Swish olarak da bilinen Sigmoid Lineer Birim (SiLU) GELU'ya çok benzer. Her ikisi de mükemmel performans gösteren pürüzsüz, monotonik olmayan fonksiyonlardır. Aralarındaki seçim genellikle belirli bir mimari ve veri kümesi için ampirik testlere dayanır, ancak bazı araştırmalar SiLU'nun belirli bilgisayarla görme modellerinde biraz daha verimli olabileceğini göstermektedir. Ultralytics YOLO gibi modeller genellikle performans ve verimlilik dengesi için SiLU'yu kullanır.

Yapay Zeka ve Derin Öğrenme Uygulamaları

GELU, bugüne kadar geliştirilen en güçlü yapay zeka modellerinin çoğunda kilit bir bileşendir.

Uygulama ve Kullanım

GELU, tüm büyük derin öğrenme çerçevelerinde kolayca kullanılabilir, bu da özel modellere dahil edilmesini kolaylaştırır.

Geliştiriciler, veri artırmadan son model dağıtımına kadar tüm MLOps yaşam döngüsünü kolaylaştıran Ultralytics HUB gibi platformlarla GELU kullanarak modeller oluşturabilir, eğitebilir ve dağıtabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı