Sözlük

Geriye Yayılım

Geriye yayılımın sinir ağlarını nasıl eğittiğini, hata oranlarını nasıl azalttığını ve görüntü tanıma ve NLP gibi yapay zeka uygulamalarını nasıl verimli bir şekilde desteklediğini öğrenin.

"Hataların geriye doğru yayılımı "nın kısaltması olan geriye yayılım, özellikle derin öğrenme (DL) alanında yapay sinir ağlarının (NN'ler) eğitimi için temel bir algoritmadır. Model eğitim sürecinde modellerin hatalarından ders çıkarmasını sağlayan temel mekanizma olarak hizmet eder. Algoritma, ağ içindeki her bir parametrenin (model ağırlıkları ve önyargılar gibi) modelin tahminlerinde gözlemlenen genel hataya katkısını verimli bir şekilde hesaplar. Bu gradyan bilgisi daha sonra optimizasyon algoritmaları tarafından parametreleri yinelemeli olarak ayarlamak için kullanılır ve modelin performansını ve doğruluğunu aşamalı olarak iyileştirir.

Geri Yayılım Nasıl Çalışır?

Geriye yayılma süreci tipik olarak giriş verilerinin bir tahmin oluşturmak için ağ üzerinden aktığı bir ilk ileri geçişi takip eder. Bir kayıp fonksiyonu kullanarak tahmini gerçek hedef değerle karşılaştırdıktan sonra, geriye yayılma algoritması iki ana aşamada yürütülür:

İleri Geçiş: Girdi verileri, bir çıktı tahmini oluşturulana kadar her biri ağırlıklarını, önyargılarını ve bir aktivasyon fonksiyonunu ( ReLU veya Sigmoid gibi) uygulayan nöron katmanlarından geçerek sinir ağına beslenir.
Geriye Doğru Geçiş: Algoritma, seçilen kayıp fonksiyonunu kullanarak hatayı (tahmin ile gerçek değer arasındaki fark) hesaplar. Daha sonra bu hata sinyalini ağ boyunca katman katman geriye doğru yayar. Matematikteki zincir kuralını kullanarak, kayıp fonksiyonunun gradyanını ağdaki her bir ağırlık ve önyargıya göre hesaplar. Bu gradyan, her bir parametredeki küçük bir değişikliğin genel hatayı ne kadar etkileyeceğini temsil eder. Görsel bir anlayış için "Calculus on Computational Graphs" gibi kaynaklar yararlı açıklamalar sunar.

Gradyanlar hesaplandıktan sonra, Gradient Descent veya Stochastic Gradient Descent (SGD) veya Adam optimizer gibi varyantlar gibi bir optimizasyon algoritması, ağın weights and biases güncellemek için bu gradyanları kullanır. Amaç, kayıp fonksiyonunu en aza indirerek ağa birbirini izleyen dönemler boyunca daha iyi tahminler yapmayı etkili bir şekilde öğretmektir.

Derin Öğrenmedeki Önemi

Geriye yayılım, modern derin öğrenme için vazgeçilmezdir. Gradyanların hesaplanmasındaki verimliliği, çok derin ve karmaşık mimarilerin eğitimini hesaplamalı olarak mümkün kılmaktadır. Bu, bilgisayarla görme (CV) görevlerinde mükemmel olan Evrişimli Sinir Ağları (CNN'ler) ve Doğal Dil İşleme (NLP) gibi sıralı veriler için yaygın olarak kullanılan Tekrarlayan Sinir Ağları (RNN'ler) gibi modelleri içerir. Geriye yayılım olmadan, GPT-4 gibi büyük modellerde veya ImageNet gibi devasa veri kümeleri üzerinde eğitilen modellerde milyonlarca parametrenin ayarlanması pratik olmazdı. Modellere verilerden karmaşık özellikleri ve hiyerarşik temsilleri otomatik olarak öğrenme gücü verir ve Derin Öğrenme geçmişini kapsayan kaynaklarda ayrıntılı olarak açıklandığı gibi, popülerleşmesinden bu yana birçok yapay zeka ilerlemesinin temelini oluşturur. Gibi çerçeveler PyTorch ve TensorFlow büyük ölçüde geriye yayılım uygulayan otomatik farklılaştırma motorlarına dayanmaktadır.