Sözlük

SiLU (Sigmoid Lineer Birim)

SiLU (Swish) aktivasyon fonksiyonunun nesne algılama ve NLP gibi yapay zeka görevlerinde derin öğrenme performansını nasıl artırdığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Swish fonksiyonu olarak da bilinen Sigmoid Lineer Birim (SiLU), sinir ağlarında (NN) kullanılan bir aktivasyon fonksiyonudur. Aktivasyon fonksiyonları, ağa doğrusal olmayan özellikler katarak ağın verilerden karmaşık örüntüler öğrenmesini sağlayan kritik bileşenlerdir. SiLU, Google Brain' deki araştırmacılar tarafından geliştirilmiştir ve çeşitli derin öğrenme görevlerindeki etkinliği nedeniyle popülerlik kazanmış, genellikle daha derin modellerde ReLU gibi eski işlevlerden daha iyi performans göstermiştir.

Uygunluk ve Avantajlar

SiLU'nun önemi, gelişmiş model performansı ve eğitim dinamiklerine yol açabilecek benzersiz özelliklerinden kaynaklanmaktadır. Yaygın olarak kullanılan ReLU fonksiyonunun aksine SiLU düzgün ve monotonik değildir. Bu, çıktısının girdisiyle birlikte kesinlikle artmadığı anlamına gelir ve daha karmaşık işlevleri modellemesine olanak tanır. Pürüzsüzlük, gradyan tabanlı optimizasyona yardımcı olarak eğitim sırasında ani değişiklikleri önler. Orijinal Swish makalesi de dahil olmak üzere araştırmalar, ReLU'nun SiLU ile değiştirilmesinin, özellikle çok derin ağlarda ImageNet gibi zorlu veri kümelerinde sınıflandırma doğruluğunu artırabileceğini göstermektedir. Kendi kendine geçiş mekanizması, bilgi akışını düzenlemeye yardımcı olarak kaybolan gradyan sorunu gibi sorunları potansiyel olarak hafifletir.

Diğer Aktivasyon Fonksiyonları ile Karşılaştırma

SiLU, diğer yaygın aktivasyon fonksiyonlarına kıyasla farklı bir profil sunar:

  • ReLU (Doğrultulmuş Doğrusal Birim): Daha basit ve hesaplama açısından verimlidir, ancak nöronların inaktif hale geldiği "ölen ReLU" sorunundan muzdarip olabilir. ReLU monotoniktir ve sıfırda düzgün değildir.
  • Sızdıran ReLU: Negatif girdiler için küçük, sıfır olmayan bir gradyana izin vererek ölen nöron sorununu ele alan ReLU üzerinde bir gelişme. ReLU gibi, Sızdıran ReLU da monotoniktir.
  • GELU (Gauss Hata Doğrusal Birimi): Genellikle dönüştürücü modellerinde kullanılan bir başka yumuşak aktivasyon fonksiyonu. GELU, ReLU gibi sadece işarete göre geçitleme yapmak yerine girdileri büyüklüklerine göre ağırlıklandırır. SiLU, bazen deneysel olarak daha iyi performans gösteren yumuşak bir alternatif olarak görülebilir. Daha fazla karşılaştırma için genel bir aktivasyon fonksiyonuna genel bakış bulabilirsiniz.

SiLU Uygulamaları

SiLU çok yönlüdür ve derin öğrenme modellerinin kullanıldığı çeşitli alanlarda başarıyla uygulanmıştır:

  • Nesne Algılama: Aşağıdakilerle ilgili mimariler de dahil olmak üzere modern nesne algılama modelleri Ultralytics YOLOgenellikle SiLU veya benzeri gelişmiş aktivasyon fonksiyonlarını kullanarak görüntü veya videolardaki nesneleri tanımlama ve konumlandırma doğruluğunu artırır. Bu, otonom sürüşten perakende analitiğine kadar çeşitli uygulamalarda performansı artırarak daha iyi model değerlendirme içgörülerine katkıda bulunur.
  • Doğal Dil İşleme (NLP): SiLU, metin sınıflandırma, makine çevirisi ve duygu analizi gibi görevler için dönüştürücü mimarileri ve diğer NLP modelleri içinde kullanılabilir. Özellikleri, modelin karmaşık dilsel kalıpları yakalamasına, anlama ve üretme yeteneklerini geliştirmesine yardımcı olabilir. Daha fazla NLP uygulaması keşfedin.
  • Görüntü Sınıflandırma: Görüntü sınıflandırması için tasarlanmış derin Evrişimli Sinir Ağlarında (CNN'ler) SiLU, ReLU katmanlarının yerini alabilir ve özellikle ağ derinliği arttıkça genellikle daha iyi yakınsama ve nihai doğruluk sağlar. Bu, COCO gibi veri kümeleriyle çalışırken önemlidir.

SiLU, aşağıdaki gibi başlıca derin öğrenme çerçevelerinde kolayca kullanılabilir PyTorch (olarak torch.nn.SiLU, belgelenmiş Burada) ve TensorFlow (olarak tf.keras.activations.swish, belgelenmiş Burada). Gibi platformlar Ultralytics HUB destek EĞİTİM ve dağıtım Bu tür gelişmiş bileşenleri kullanan modellerin.

Tümünü okuyun