GELU (Gauss Hata Doğrusal Birimi)

GELU aktivasyon fonksiyonunun GPT-4 gibi transformatör modellerini nasıl geliştirerek gradyan akışını, kararlılığı ve verimliliği artırdığını keşfedin.

GELU (Gaussian Error Linear Unit), özellikle Transformer modelleri olmak üzere son teknoloji sinir ağı mimarilerinde bir standart haline gelen yüksek performanslı bir aktivasyon fonksiyon udur. Yumuşak, monotonik olmayan eğrisiyle bilinir ve modellerin karmaşık örüntüleri eski işlevlerden daha etkili bir şekilde öğrenmesine yardımcı olur."Gaussian Error Linear Units (GELUs)" adlı makalede tanıtılan bu fonksiyon, eğitim kararlılığını ve model performansını iyileştirmek için dropout ve ReLU gibi diğer fonksiyonların özelliklerini bir araya getirmektedir.

GELU Nasıl Çalışır?

Tüm negatif değerleri keskin bir şekilde kesen ReLU'nun aksine GELU, girdilerini büyüklüklerine göre ağırlıklandırır. Bir nöronun etkinleştirilip etkinleştirilmeyeceğini, girdiyi standart Gauss dağılımının kümülatif dağılım fonksiyonu (CDF) ile çarparak olasılıksal olarak belirler. Bu, girdilerin ne kadar negatif olursa "düşürülme" (sıfıra ayarlanma) olasılığının o kadar yüksek olduğu, ancak geçişin ani değil yumuşak olduğu anlamına gelir. Bu stokastik düzenleme özelliği, kaybolan gradyan sorunu gibi sorunların önlenmesine yardımcı olur ve modern derin öğrenme modelleri için çok önemli olan verilerin daha zengin bir şekilde temsil edilmesini sağlar.

GELU ve Diğer Aktivasyon Fonksiyonları

GELU, diğer popüler aktivasyon fonksiyonlarına göre çeşitli avantajlar sunmakta ve bu da yaygın olarak benimsenmesine yol açmaktadır.

GELU vs. ReLU: Birincil fark GELU'nun pürüzsüzlüğüdür. ReLU hesaplama açısından basit olsa da, sıfırdaki keskin köşesi bazen nöronların kalıcı olarak inaktif hale geldiği "ölen ReLU" sorununa yol açabilir. GELU'nun yumuşak eğrisi bu sorunu önleyerek daha istikrarlı bir gradyan inişini kolaylaştırır ve genellikle daha iyi nihai doğruluğa yol açar.
GELU veSızdıran ReLU: Sızıntılı ReLU, negatif girdiler için küçük, negatif bir eğime izin vererek ölmekte olan ReLU sorununu çözmeye çalışır. Ancak GELU'nun doğrusal olmayan, kavisli yapısı, birçok derin öğrenme görevinde Leaky ReLU'dan daha iyi performans gösterdiği gösterilen daha dinamik bir aktivasyon aralığı sağlar.
GELU vs SiLU (Swish): Swish olarak da bilinen Sigmoid Lineer Birim (SiLU) GELU'ya çok benzer. Her ikisi de mükemmel performans gösteren pürüzsüz, monotonik olmayan fonksiyonlardır. Aralarındaki seçim genellikle belirli bir mimari ve veri kümesi için ampirik testlere dayanır, ancak bazı araştırmalar SiLU'nun belirli bilgisayarla görme modellerinde biraz daha verimli olabileceğini göstermektedir. Ultralytics YOLO gibi modeller genellikle performans ve verimlilik dengesi için SiLU'yu kullanır.

Yapay Zeka ve Derin Öğrenme Uygulamaları

GELU, bugüne kadar geliştirilen en güçlü yapay zeka modellerinin çoğunda kilit bir bileşendir.

Doğal Dil İşleme (NLP): GELU, Transformer mimarilerinin ileri beslemeli ağlarındaki standart aktivasyon fonksiyonudur. Bu, neredeyse tüm modern Büyük Dil Modellerinin (LLM'ler) temeli olan BERT ve GPT serisi gibi ufuk açıcı modelleri içerir. Karmaşık dil kalıplarını işleme yeteneği, makine çevirisi ve metin özetleme gibi görevler için idealdir. Hugging Face gibi kuruluşların kaynaklarında bu modeller hakkında daha fazla bilgi edinebilirsiniz.
Bilgisayarla Görme (CV): NLP'deki başarısının ardından GELU, Vision Transformer (ViT) modellerinde benimsenmiştir. Bu modeller, görüntü sınıflandırma ve nesne algılama gibi görevler için Transformer mimarisini görüntü yamalarına uygular. ViT'lerin performansı, GELU'nun görsel bilgileri işlemedeki etkinliğini göstermiş ve geleneksel Evrişimsel Sinir Ağlarının (CNN'ler) hakimiyetine meydan okumuştur.

Uygulama ve Kullanım

GELU, tüm büyük derin öğrenme çerçevelerinde kolayca kullanılabilir, bu da özel modellere dahil edilmesini kolaylaştırır.

PyTorch: Olarak uygulandı torch.nn.GELUdetaylı bilgi ile birlikte resmi PyTorch GELU belgeleri.
TensorFlow: Olarak mevcut tf.keras.activations.gelu'de belgelenmiştir. TensorFlow API belgeleri.

Geliştiriciler, veri artırmadan son model dağıtımına kadar tüm MLOps yaşam döngüsünü kolaylaştıran Ultralytics HUB gibi platformlarla GELU kullanarak modeller oluşturabilir, eğitebilir ve dağıtabilir.

GELU (Gauss Hata Doğrusal Birimi)

İnovasyonunuza güç katacak esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

Ultralytics HUB ile YOLO modellerini kolayca eğitin

GELU Nasıl Çalışır?

GELU ve Diğer Aktivasyon Fonksiyonları

Yapay Zeka ve Derin Öğrenme Uygulamaları

Uygulama ve Kullanım

Bu kategoride daha fazlasını okuyun

Katmanlı üretimi anlamak: Teknoloji ve kullanım alanları

Ultralytics YOLO11 ile havaalanı yer operasyonlarının izlenmesi

Üretimde robot teknolojisinin evrimi ve geleceği

Ultralytics topluluğuna katılın