Tanh (Hiperbolik Tanjant), yapay zeka (AI) ve makine öğreniminde (ML) yaygın olarak kullanılan bir aktivasyon fonksiyonudur. Sinir ağlarına (NN'ler) doğrusal olmayan bir özellik kazandırarak verilerden karmaşık örüntüler öğrenmelerini sağlayan matematiksel bir fonksiyondur. Tanh, giriş değerlerini -1 ile 1 arasında bir aralığa sıkıştırarak Sigmoid fonksiyonuna benzer ancak sıfır etrafında ortalanmış 'S' şeklinde bir eğri üretir.
Tanh Nasıl Çalışır?
Tanh fonksiyonu herhangi bir gerçek değerli sayıyı girdi olarak alır ve -1 ile 1 arasında bir değer çıktısı verir. Sıfıra yakın girdiler sıfıra yakın çıktılar üretir. Büyük pozitif girdiler 1'e yaklaşan çıktılarla sonuçlanırken, büyük negatif girdiler -1'e yaklaşan çıktılarla sonuçlanır. Bu sıfır merkezli özellik Tanh'ın önemli bir özelliğidir. Çıktıları sıfır etrafında merkezlendiğinden, Tanh bazen Sigmoid gibi çıktıları 0 ila 1 arasında değişen fonksiyonlara kıyasla eğitim sırasında modellerin daha hızlı yakınsamasına yardımcı olabilir. Bu merkezleme, gradyan iniş optimizasyonu sırasında uygulanan güncellemelerin dengelenmesine yardımcı olur.
Tanh ve Diğer Aktivasyon Fonksiyonları
Tanh, özellikle ReLU (Rectified Linear Unit) gibi fonksiyonların ortaya çıkmasından önce popüler bir seçimdi. İşte karşılaştırması:
- Tanh vs Sigmoid: Her ikisi de S şeklinde eğrilere sahiptir, ancak Tanh'ın çıkış aralığı (-1 ila 1) Sigmoid'in aksine (0 ila 1) sıfır merkezlidir. Bu sıfır merkezleme genellikle Tanh'ı eski sinir ağı mimarilerinin gizli katmanlarında tercih edilir kılar. Bununla birlikte, her ikisi de büyük pozitif veya negatif girdiler için gradyanların çok küçük hale geldiği ve derin ağlarda öğrenmeyi yavaşlatan kaybolan gradyan probleminden muzdarip olabilir.
- Tanh vs. ReLU: ReLU ve Sızdıran ReLU ve SiLU gibi varyantları (aşağıdaki gibi modellerde kullanılır Ultralytics YOLO) hesaplama açısından daha basittir ve genellikle pozitif girdiler için kaybolan gradyan sorunundan kaçınır. Tanh hesaplama açısından daha yoğun ve hala kaybolan gradyanlara eğilimli olsa da, nöronların kalıcı olarak inaktif hale gelebileceği "ölen ReLU" sorunundan muzdarip değildir. gibi son teknoloji ürünü nesne algılama modellerinde kullanılanlar gibi modern mimariler YOLOv8 ve YOLO11daha iyi performans ve daha hızlı eğitim için genellikle ReLU varyantlarını tercih eder.
Yapay Zeka ve Makine Öğrenimi Uygulamaları
Modern derin Evrişimsel Sinir Ağlarının (CNN'ler) gizli katmanlarında ReLU varyantlarına kıyasla daha az yaygın olsa da Tanh hala kullanım alanı bulmaktadır:
- Tekrarlayan Sinir Ağları (RNN'ler): Tanh tarihsel olarak RNN 'lerin gizli durumlarında ve Doğal Dil İşleme (NLP) ve zaman serisi analizinde dizi modelleme görevleri için kullanılan LSTM'l er gibi varyantlarda ortak bir aktivasyon fonksiyonu olmuştur. Sınırlandırılmış aralığı, tekrarlayan bağlantılar içindeki bilgi akışını düzenlemeye yardımcı olur.
- Üretken Çekişmeli Ağlar (GAN'lar): Bazı GAN mimarilerinde, üretecin son katmanı -1 ile 1 arasında normalize edilmiş çıktılar üretmek için Tanh kullanabilir. Bu, özellikle veri ön işleme sırasında piksel değerleri bu aralığa normalize edilmiş görüntüler üretirken kullanışlıdır.
Avantajlar ve Dezavantajlar
Avantajlar:
- Sıfır Merkezli Çıktı: Sigmoid gibi sıfır merkezli olmayan fonksiyonlara kıyasla optimizasyon dinamiklerine yardımcı olur.
- Daha Güçlü Gradyan: Sigmoid ile karşılaştırıldığında, Tanh'ın sıfır etrafında daha dik bir türevi vardır, bu da daha hızlı ilk öğrenmeye yol açabilir.
Dezavantajlar:
- Kaybolan Gradyanlar: Büyük girdiler için kaybolan gradyanlardan muzdariptir, bu da çok derin ağlarda öğrenmeyi potansiyel olarak engeller. Model eğitimi sırasında bu tür sorunları hafifletmeye yönelik içgörüler için Ultralytics belgelerini inceleyin.
- Hesaplama Maliyeti: Üstel hesaplamalar nedeniyle ReLU gibi daha basit işlevlerden daha hesaplamalı olarak pahalıdır. Ultralytics HUB gibi platformlar, modelleri farklı konfigürasyonlarla eğitmek ve değerlendirmek için araçlar sunar.
Tanh'ı anlamak, aktivasyon fonksiyonlarının evrimi ve çeşitli yapay zeka uygulamalarında sinir ağlarının yeteneklerini şekillendirmedeki rolleri için değerli bir bağlam sağlar. Bilgisayarla görme için modern derin öğrenmede genellikle ReLU varyantlarının yerini almış olsa da, belirli ağ türleri ve uygulamalarında ilgili bir işlev olmaya devam etmektedir.