Sözlük

Geriye Yayılım

Geriye yayılımın sinir ağlarını nasıl eğittiğini, hata oranlarını nasıl azalttığını ve görüntü tanıma ve NLP gibi yapay zeka uygulamalarını nasıl verimli bir şekilde desteklediğini öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

"Hataların geriye doğru yayılımı "nın kısaltması olan geriye yayılım, özellikle derin öğrenme (DL) alanında yapay sinir ağlarının (NN'ler) eğitimi için temel bir algoritmadır. Model eğitim sürecinde modellerin hatalarından ders çıkarmasını sağlayan temel mekanizma olarak hizmet eder. Algoritma, ağ içindeki her bir parametrenin (model ağırlıkları ve önyargılar gibi) modelin tahminlerinde gözlemlenen genel hataya katkısını verimli bir şekilde hesaplar. Bu gradyan bilgisi daha sonra optimizasyon algoritmaları tarafından parametreleri yinelemeli olarak ayarlamak için kullanılır ve modelin performansını ve doğruluğunu aşamalı olarak iyileştirir.

Geri Yayılım Nasıl Çalışır?

Geriye yayılma süreci tipik olarak giriş verilerinin bir tahmin oluşturmak için ağ üzerinden aktığı bir ilk ileri geçişi takip eder. Bir kayıp fonksiyonu kullanarak tahmini gerçek hedef değerle karşılaştırdıktan sonra, geriye yayılma algoritması iki ana aşamada yürütülür:

  1. İleri Geçiş: Girdi verileri, bir çıktı tahmini oluşturulana kadar her biri ağırlıklarını, önyargılarını ve bir aktivasyon fonksiyonunu ( ReLU veya Sigmoid gibi) uygulayan nöron katmanlarından geçerek sinir ağına beslenir.
  2. Geriye Doğru Geçiş: Algoritma, seçilen kayıp fonksiyonunu kullanarak hatayı (tahmin ile gerçek değer arasındaki fark) hesaplar. Daha sonra bu hata sinyalini ağ boyunca katman katman geriye doğru yayar. Matematikteki zincir kuralını kullanarak, kayıp fonksiyonunun gradyanını ağdaki her bir ağırlık ve önyargıya göre hesaplar. Bu gradyan, her bir parametredeki küçük bir değişikliğin genel hatayı ne kadar etkileyeceğini temsil eder. Görsel bir anlayış için "Calculus on Computational Graphs" gibi kaynaklar yararlı açıklamalar sunar.

Gradyanlar hesaplandıktan sonra, Gradient Descent veya Stochastic Gradient Descent (SGD) veya Adam optimizer gibi varyantlar gibi bir optimizasyon algoritması, ağın weights and biases güncellemek için bu gradyanları kullanır. Amaç, kayıp fonksiyonunu en aza indirerek ağa birbirini izleyen dönemler boyunca daha iyi tahminler yapmayı etkili bir şekilde öğretmektir.

Derin Öğrenmedeki Önemi

Geriye yayılım, modern derin öğrenme için vazgeçilmezdir. Gradyanların hesaplanmasındaki verimliliği, çok derin ve karmaşık mimarilerin eğitimini hesaplamalı olarak mümkün kılmaktadır. Bu, bilgisayarla görme (CV) görevlerinde mükemmel olan Evrişimli Sinir Ağları (CNN'ler) ve Doğal Dil İşleme (NLP) gibi sıralı veriler için yaygın olarak kullanılan Tekrarlayan Sinir Ağları (RNN'ler) gibi modelleri içerir. Geriye yayılım olmadan, GPT-4 gibi büyük modellerde veya ImageNet gibi devasa veri kümeleri üzerinde eğitilen modellerde milyonlarca parametrenin ayarlanması pratik olmazdı. Modellere verilerden karmaşık özellikleri ve hiyerarşik temsilleri otomatik olarak öğrenme gücü verir ve Derin Öğrenme geçmişini kapsayan kaynaklarda ayrıntılı olarak açıklandığı gibi, popülerleşmesinden bu yana birçok yapay zeka ilerlemesinin temelini oluşturur. Gibi çerçeveler PyTorch ve TensorFlow büyük ölçüde geriye yayılım uygulayan otomatik farklılaştırma motorlarına dayanmaktadır.

Geriye Yayılım ve Optimizasyon Algoritmaları

Geriye yayılımı optimizasyon algoritmalarından ayırt etmek önemlidir. Geriye yayılım, gradyanları (her bir parametrenin hata katkısı) hesaplamak için kullanılan yöntemdir. Optimizasyon algoritmaları ise, kaybı en aza indirmek amacıyla modelin parametreleriniweights and biases) güncellemek için bu hesaplanan gradyanları kullanan stratejilerdir. Geriye yayılma iyileştirme için yön sağlarken, optimizasyon algoritması adım boyutunu(öğrenme oranı) ve güncelleme şeklini belirler.

Gerçek Dünya Uygulamaları

Bir derin öğrenme modeli eğitime tabi tutulduğunda geriye yayılım dolaylı olarak kullanılır. İşte iki somut örnek:

  1. Ultralytics YOLO ile Nesne Algılama: Bir nesneyi eğitirken Ultralytics YOLO modeli (örneğin YOLOv8 veya YOLO11) COCO gibi bir veri kümesinde nesne algılama için her eğitim yinelemesinde geriye yayılım kullanılır. Model sınırlayıcı kutuları ve sınıfları tahmin ettikten sonra kayıp (örneğin, tahmin edilen kutuların zemin gerçeğiyle karşılaştırılması) hesaplanır. Geriye yayılma, modelin omurgası ve algılama kafası boyunca tüm ağırlıklar için gradyanları hesaplar. Daha sonra bir optimize edici, ağırlıkları ayarlamak için bu gradyanları kullanır ve modelin nesneleri doğru bir şekilde bulma ve sınıflandırma yeteneğini geliştirir. Kullanıcılar, bu eğitim sürecini yönetmek için Ultralytics HUB gibi platformlardan yararlanabilir ve verimli geri yayılım uygulamalarından faydalanabilir. Bu, otonom araçlardan güvenlik sistemlerine kadar çeşitli uygulamalar için çok önemlidir.
  2. Doğal Dil İşleme Modelleri: BERT ve GPT modelleri gibi büyük dil modelleri (LLM'ler) geri yayılım kullanılarak eğitilir. Örneğin, bir duygu analizi görevinde, model belirli bir metnin duygusunu (olumlu, olumsuz, nötr) tahmin eder. Tahmin edilen duyarlılık ile gerçek etiket arasındaki fark bir hata değeriyle sonuçlanır. Geriye yayılma, geniş ağdaki her bir parametrenin bu hataya ne kadar katkıda bulunduğunu hesaplar. Optimizasyon algoritmaları daha sonra bu parametreleri güncelleyerek modelin eğitim süresince dilsel nüansları, bağlamı ve duyarlılığı daha iyi anlamasını sağlar. Stanford NLP grubu gibi akademik araştırma grupları bu teknikleri sürekli olarak araştırmakta ve geliştirmektedir.
Tümünü okuyun