SiLU (Swish) aktivasyon fonksiyonunun nesne algılama ve NLP gibi yapay zeka görevlerinde derin öğrenme performansını nasıl artırdığını keşfedin.
Swish fonksiyonu olarak da bilinen SiLU (Sigmoid Linear Unit), derin öğrenme (DL) modellerinde, özellikle de sinir ağlarında (NN) kullanılan bir aktivasyon fonksiyonudur. Google daki araştırmacılar tarafından önerilmiş ve ReLU ve Sigmoid gibi geleneksel aktivasyon fonksiyonlarına kıyasla model performansını iyileştirmedeki etkinliği nedeniyle popülerlik kazanmıştır. SiLU, gradyan akışı ve model optimizasyonuna yardımcı olabilecek pürüzsüzlüğü ve monotonik olmayan özellikleri nedeniyle değerlidir. Daha geniş bir anlayış için genel aktivasyon fonksiyonuna genel bakış bölümüne bakın.
SiLU, girdi ve girdinin çarpımı olarak tanımlanır. Sigmoid fonksiyonu girişe uygulanır. Esasen, SiLU(x) = x * sigmoid(x)
. Bu formülasyon, SiLU'nun sigmoid bileşenin doğrusal girdinin ne ölçüde doğrusal olduğunu belirlediği bir kendi kendini geçitleme mekanizması olarak hareket etmesini sağlar. x
içinden geçirilir. Sigmoid çıktı 1'e yakın olduğunda, girdi neredeyse hiç değişmeden geçer (pozitif değerler için ReLU'ya benzer) ve 0'a yakın olduğunda, çıktı sıfıra doğru bastırılır. ReLU'nun aksine, SiLU düzgün ve monotonik değildir (girdi arttığında bile azalabilir), bu özellikler Sigmoid fonksiyon detayları Bileşen. Bu konsept şu belgede detaylandırılmıştır orijinal Swish kağıdı.
SiLU, derin öğrenme modellerindeki etkinliğine katkıda bulunan çeşitli avantajlar sunar:
SiLU kendisini diğer yaygın aktivasyon fonksiyonlarından ayırır:
max(0, x)
) ve pozitif değerler için doğrusaldır, ancak nöronların negatif girdiler için pasif hale gelebildiği "ölen ReLU" probleminden muzdariptir. Bkz. a ReLU açıklaması. SiLU pürüzsüzdür ve negatif değerler için sıfır olmayan çıkışı sayesinde bu sorunu önler.SiLU çok yönlüdür ve derin öğrenme modellerinin kullanıldığı çeşitli alanlarda başarıyla uygulanmıştır:
SiLU, başlıca derin öğrenme çerçevelerinde kolayca kullanılabilir:
torch.nn.SiLU
, resmi SiLU için PyTorch belgeleri mevcut.tf.keras.activations.swish
veya tf.keras.activations.silu
'de belgelenmiştir. SiLU için TensorFlow belgeleri.Ultralytics HUB gibi platformlar, eğitim modellerini destekler ve SiLU gibi gelişmiş bileşenleri kullanan modeller için çeşitli dağıtım seçeneklerini keşfeder. DeepLearning.AI gibi kuruluşların devam eden araştırmaları ve kaynakları, uygulayıcıların bu tür işlevlerden etkili bir şekilde yararlanmasına yardımcı olmaktadır.