Kaybolan gradyan sorununun derin öğrenmeyi nasıl etkilediğini öğrenin ve Ultralytics 'da kullanılan ReLU ve kalıntı bağlantıları gibi etkili çözümleri keşfedin.
Kaybolan Gradyan sorunu, derin yapay sinir ağlarının eğitimi sırasında karşılaşılan önemli bir zorluktur. Bu sorun, ağın parametrelerinin ne kadar değişmesi gerektiğini belirleyen değerler olan gradyanlar, çıktı katmanından giriş katmanlarına doğru geriye doğru yayıldıkça inanılmaz derecede küçüldüğünde ortaya çıkar. Bu gradyanlar, model ağırlıklarını güncellemek için gerekli olduğundan, kaybolmaları, ağın önceki katmanlarının öğrenmeyi durdurduğu anlamına gelir. Bu fenomen, modelin verilerdeki karmaşık kalıpları yakalamasını etkili bir şekilde engeller ve Bu fenomen, modelin verilerdeki karmaşık kalıpları yakalamasını etkili bir şekilde engeller ve derin öğrenme mimarilerinin derinliğini ve performansını sınırlar. .
Bunun neden olduğunu anlamak için, geri yayılım sürecine bakmak faydalı olacaktır. Eğitim sırasında, ağ bir kayıp fonksiyonu kullanarak tahmini ile gerçek hedef arasındaki hatayı hesaplar. Bu hata daha sonra ağırlıkları ayarlamak için katmanlar boyunca geriye doğru gönderilir. Bu ayarlama, aktivasyon fonksiyonlarının türevlerini katman katman çarpma işlemini içeren matematiksel zincir kuralına dayanır.
Bir ağ, sigmoid fonksiyonu veya hiperbolik tanjant (tanh) gibi aktivasyon fonksiyonları kullanıyorsa, türevler genellikle 1'den küçüktür. Bu küçük sayıların çoğu, düzinelerce veya yüzlerce katmandan oluşan derin bir ağda birbiriyle çarpıldığında, sonuç sıfıra yaklaşır. Bunu, uzun bir insan sırasına fısıldayarak mesajın iletildiği "telefon" oyunu gibi hayal edebilirsiniz; mesaj sıranın başına ulaştığında, mesaj duyulmaz hale gelir ve ilk kişi ne söyleyeceğini bilemez.
AI alanı, kaybolan gradyanları azaltmak için birkaç sağlam strateji geliştirmiştir ve bu sayede Ultralytics gibi güçlü modellerin oluşturulması mümkün hale gelmiştir.
Aynı temel mekanizmadan (tekrarlı çarpma) kaynaklansalar da, kaybolan gradyanlar patlayan gradyanlardan farklıdır .
NaN (Sayı Değil). Bu genellikle şu şekilde düzeltilir:
gradyan kırpma.
Kaybolan gradyanların üstesinden gelmek, modern yapay zeka uygulamalarının başarısı için bir ön koşul olmuştur.
Modern çerçeveler ve modeller, bu karmaşıklıkların çoğunu soyutlar. YOLO26 gibi bir modeli eğittiğinizde, mimari, gradyanların kaybolmasını önlemek için SiLU aktivasyonu ve Toplu Normalleştirme gibi bileşenleri otomatik olarak içerir .
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)