Sözlük

SiLU (Sigmoid Lineer Birim)

SiLU (Swish) aktivasyon fonksiyonunun nesne algılama ve NLP gibi yapay zeka görevlerinde derin öğrenme performansını nasıl artırdığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Swish fonksiyonu olarak da bilinen SiLU (Sigmoid Linear Unit), derin öğrenme (DL) modellerinde, özellikle de sinir ağlarında (NN) kullanılan bir aktivasyon fonksiyonudur. Google daki araştırmacılar tarafından önerilmiş ve ReLU ve Sigmoid gibi geleneksel aktivasyon fonksiyonlarına kıyasla model performansını iyileştirmedeki etkinliği nedeniyle popülerlik kazanmıştır. SiLU, gradyan akışı ve model optimizasyonuna yardımcı olabilecek pürüzsüzlüğü ve monotonik olmayan özellikleri nedeniyle değerlidir. Daha geniş bir anlayış için genel aktivasyon fonksiyonuna genel bakış bölümüne bakın.

SiLU Nasıl Çalışır?

SiLU, girdi ve girdinin çarpımı olarak tanımlanır. Sigmoid fonksiyonu girişe uygulanır. Esasen, SiLU(x) = x * sigmoid(x). Bu formülasyon, SiLU'nun sigmoid bileşenin doğrusal girdinin ne ölçüde doğrusal olduğunu belirlediği bir kendi kendini geçitleme mekanizması olarak hareket etmesini sağlar. x içinden geçirilir. Sigmoid çıktı 1'e yakın olduğunda, girdi neredeyse hiç değişmeden geçer (pozitif değerler için ReLU'ya benzer) ve 0'a yakın olduğunda, çıktı sıfıra doğru bastırılır. ReLU'nun aksine, SiLU düzgün ve monotonik değildir (girdi arttığında bile azalabilir), bu özellikler Sigmoid fonksiyon detayları Bileşen. Bu konsept şu belgede detaylandırılmıştır orijinal Swish kağıdı.

SiLU'nun Avantajları

SiLU, derin öğrenme modellerindeki etkinliğine katkıda bulunan çeşitli avantajlar sunar:

  • Düzgünlük: ReLU'nun aksine SiLU pürüzsüz bir fonksiyondur, yani türevi süreklidir. Bu pürüzsüzlük, geriye yayılma sırasında gradyan tabanlı optimizasyon algoritmaları için faydalı olabilir ve daha istikrarlı bir eğitim sağlar.
  • Monotonik olmama: Fonksiyonun sıfıra doğru yükselmeden önce negatif girdiler için hafifçe alçalan şekli, ağın daha karmaşık örüntüleri temsil etmesine yardımcı olabilir.
  • Kaybolan Gradyanlardan Kaçınma: Sigmoid fonksiyonlar derin ağlarda kaybolan gradyan sorunundan önemli ölçüde muzdarip olabilirken, SiLU bu sorunu, özellikle ReLU'ya benzer şekilde doğrusal davrandığı pozitif girdiler için hafifletir.
  • Geliştirilmiş Performans: Ampirik çalışmalar, ReLU'nun SiLU ile değiştirilmesinin, özellikle daha derin mimarilerde, çeşitli görevler ve veri kümelerinde model doğruluğunda iyileşmelere yol açabileceğini göstermiştir.

Diğer Aktivasyon Fonksiyonları ile Karşılaştırma

SiLU kendisini diğer yaygın aktivasyon fonksiyonlarından ayırır:

  • ReLU: ReLU hesaplama açısından daha basittir (max(0, x)) ve pozitif değerler için doğrusaldır, ancak nöronların negatif girdiler için pasif hale gelebildiği "ölen ReLU" probleminden muzdariptir. Bkz. a ReLU açıklaması. SiLU pürüzsüzdür ve negatif değerler için sıfır olmayan çıkışı sayesinde bu sorunu önler.
  • Sigmoid: Sigmoid, girdileri 0 ile 1 arasında bir aralıkla eşler ancak doygunluk ve kaybolan gradyanlardan muzdariptir, bu da onu SiLU'ya kıyasla derin ağlardaki gizli katmanlar için daha az uygun hale getirir.
  • Sızdıran ReLU: Sızdıran ReLU, negatif girdiler için küçük, sıfır olmayan bir gradyana izin vererek ölmekte olan ReLU sorununu ele alır. SiLU farklı, daha yumuşak bir profil sunar.
  • GELU: GELU (Gauss Hata Doğrusal Birimi), genellikle SiLU'ya benzer şekilde performans gösteren başka bir yumuşak aktivasyon fonksiyonudur. SiLU genellikle hesaplama açısından GELU'dan biraz daha basit olarak kabul edilir.

SiLU Uygulamaları

SiLU çok yönlüdür ve derin öğrenme modellerinin kullanıldığı çeşitli alanlarda başarıyla uygulanmıştır:

Uygulama

SiLU, başlıca derin öğrenme çerçevelerinde kolayca kullanılabilir:

Ultralytics HUB gibi platformlar, eğitim modellerini destekler ve SiLU gibi gelişmiş bileşenleri kullanan modeller için çeşitli dağıtım seçeneklerini keşfeder. DeepLearning.AI gibi kuruluşların devam eden araştırmaları ve kaynakları, uygulayıcıların bu tür işlevlerden etkili bir şekilde yararlanmasına yardımcı olmaktadır.

Tümünü okuyun