Transformer'ların öz dikkat, paralel işleme ve YOLO ve ViT gibi gerçek dünya uygulamaları ile NLP ve CV'de nasıl devrim yarattığını keşfedin.
Transformer, 2017 yılında Vaswani ve arkadaşları tarafından "Attention is All You Need" adlı ufuk açıcı makalede tanıtılan bir derin öğrenme modeli mimarisidir. Doğal Dil İşleme (NLP) alanında devrim yaratmıştır ve Bilgisayarla Görme (CV) görevlerine giderek daha fazla uygulanmaktadır. Tekrarlayan Sinir Ağlarına (RNN 'ler ) veya Evrişimli Sinir Ağlarına (CNN'ler) dayanan önceki modellerin aksine, Transformatörler girdi ve çıktı arasındaki küresel bağımlılıkları çizmek için yalnızca bir dikkat mekanizmasına dayanır.
Transformatör mimarisi bir kodlayıcı-kod çözücü yapısına dayanmaktadır. Kodlayıcı giriş dizisini işler ve bağlamsallaştırılmış bir temsil üretir, kod çözücü ise çıkış dizisini üretmek için bu temsili kullanır. Temel yenilik, modelin girdi dizisinin her bir parçasının diğer tüm parçalarla ilgili önemini tartmasına olanak tanıyan kendi kendine dikkat mekanizmasıdır. Bu mekanizma, modelin uzun menzilli bağımlılıkları RNN'lerden daha etkili bir şekilde yakalamasını sağlar.
Dönüştürücüler, verileri sırayla işleyen RNN'lerin aksine giriş verilerini paralel olarak işler. Bu paralel işleme, bir cümledeki tüm kelimeler arasındaki ilişkileri aynı anda hesaplayan öz dikkat mekanizması ile mümkün olmaktadır. Model ayrıca girdi dizisindeki kelimelerin sırası hakkında bilgi tutmak için konumsal kodlamaları da içerir. Kodlayıcı ve kod çözücü, her biri kendi kendine dikkat ve ileri beslemeli sinir ağları içeren birden fazla katmandan oluşur. Bu katmanlı yapı, modelin verilerden karmaşık örüntüler ve temsiller öğrenmesini sağlar.
Transformatörler önceki mimarilere göre çeşitli avantajlar sunar. Verileri paralel olarak işleme yetenekleri eğitim süresini önemli ölçüde azaltır. Öz dikkat mekanizması, uzun menzilli bağımlılıkları daha etkili bir şekilde yakalamalarına olanak tanıyarak bağlamın anlaşılmasını gerektiren görevlerde daha iyi performans elde edilmesini sağlar. Ayrıca, Transformatörler son derece ölçeklenebilirdir ve büyük veri kümeleri üzerinde eğitilebilir, bu da onları çok çeşitli uygulamalar için uygun hale getirir. Transformatörler Ultralytics YOLO modelleri, nesne algılama için tasarlanmış bir dönüştürücü modelini destekler.
Dönüştürücüler makine çevirisi, metin özetleme ve soru cevaplama gibi çeşitli NLP görevlerine başarıyla uygulanmıştır. Örneğin, Google'un BERT 'i (Transformatörlerden Çift Yönlü Kodlayıcı Temsilleri) ve OpenAI'nin GPT 'si (Üretken Önceden Eğitilmiş Transformatör) Transformatör mimarisine dayanmaktadır ve çok sayıda NLP kıyaslamasında en gelişmiş sonuçları elde etmiştir. Bilgisayarla görmede, Vision Transformer (ViT) gibi modeller, Transformer'ların görüntüleri yama dizileri olarak ele alarak görüntü sınıflandırma görevlerinde CNN'lerden daha iyi performans gösterebileceğini göstermiştir.
RNN'lere kıyasla Transformer'lar uzun menzilli bağımlılıkları yakalamada üstündür ve paralel işleme kabiliyetleri sayesinde çok daha hızlı eğitilebilirler. CNN'ler görüntüler gibi ızgara benzeri verileri işlemede etkiliyken, Transformatörler daha esnektir ve değişken uzunluktaki dizileri işleyebilir, bu da onları hem NLP hem de CV görevleri için uygun hale getirir. Öncelikle metin üretmeye ve anlamaya odaklanan Büyük Dil Modellerinin (LLM'ler) aksine, Dönüştürücüler hem dil hem de görme görevleri dahil olmak üzere daha geniş bir uygulama aralığına sahiptir.
Transformatör mimarisi, verimliliğini artırmaya ve uygulamalarını genişletmeye yönelik devam eden araştırmalarla gelişmeye devam etmektedir. Seyrek dikkat ve doğrusal dikkat gibi yenilikler, kendi kendine dikkatin hesaplama maliyetini azaltmayı ve Transformatörleri daha da uzun dizilere uygulamayı mümkün kılmayı amaçlamaktadır. Araştırmacılar ayrıca Transformatörlerin güçlü yönlerini CNN'ler gibi diğer mimarilerle birleştirerek çeşitli görevlerde üstünlük sağlayan hibrit modeller oluşturmanın yollarını araştırıyor. Alan ilerledikçe, Transformatörlerin Yapay Zeka (AI) ve Makine Öğrenimini (ML) ilerletmede giderek daha önemli bir rol oynaması bekleniyor. Bu gelişmeler hakkında daha fazla bilgiyi Ultralytics Blog'unda bulabilirsiniz.