Sözlük

Diziden Diziye Modeller

Diziden diziye modellerin girdiyi çıktı dizilerine dönüştürerek çeviri, sohbet robotları ve konuşma tanıma gibi yapay zeka görevlerini nasıl güçlendirdiğini keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Diziden Diziye (Seq2Seq) modelleri, bir giriş dizisini, giriş ve çıkış dizilerinin uzunluklarının farklı olabileceği bir çıkış dizisine dönüştürmek için tasarlanmış bir derin öğrenme modelleri sınıfıdır. Bu özellik, onları özellikle Doğal Dil İşleme (NLP) olmak üzere çok çeşitli görevler için son derece güçlü kılar, ancak konuşma tanıma gibi diğer alanlarda ve hatta sıralı verileri içeren belirli bilgisayar görme problemlerinde de uygulanabilir. Sutskever ve diğerlerinin"Sinir Ağları ile Diziden Diziye Öğrenme" ve Cho ve diğerlerinin"İstatistiksel Makine Çevirisi için RNN Kodlayıcı-Kod Çözücü Kullanarak İfade Temsillerini Öğrenme" gibi makalelerinde ortaya konan temel fikir, makinelerin değişken uzunluktaki dizi dönüşümlerini ele alma biçiminde devrim yaratmıştır.

Kodlayıcı-Kod Çözücü Mimarisi

Çoğu Seq2Seq modelinin temel yapısı kodlayıcı-kod çözücü mimarisidir:

  1. Kodlayıcı: Bu bölüm, tipik olarak LSTM (Uzun Kısa Süreli Bellek ) veya GRU (Geçitli Tekrarlayan Birim) gibi bir Tekrarlayan Sinir Ağı (RNN ) kullanarak tüm giriş dizisini (örneğin Fransızca bir cümle) adım adım işler. Amacı, girdi dizisindeki bilgileri genellikle "bağlam vektörü" veya "düşünce vektörü" olarak adlandırılan sabit boyutlu bir iç temsile sıkıştırmaktır. Bu vektör, girdi dizisinin özünü veya anlamını yakalamayı amaçlar.
  2. Kod Çözücü: Bu kısım, kodlayıcı tarafından üretilen bağlam vektörünü alır ve çıktı dizisini adım adım üretir (örneğin, English'ye çevrilmiş cümle). Aynı zamanda tipik olarak, bağlam vektörüne ve önceki adımlarda üretilen öğelere bağlı olarak her zaman adımında bir öğe (bir kelime veya karakter gibi) üreten bir RNN'dir.

Bu temel yapıdaki önemli bir gelişme, Bahdanau ve arkadaşlarının"Neural Machine Translation by Jointly Learning to Align and Translate" başlıklı makalesinde ayrıntıları verilen dikkat mekanizmasının devreye sokulmasıdır. Dikkat, kod çözücünün çıktı dizisinin her bir öğesini oluştururken yalnızca tek bir sabit boyutlu bağlam vektörüne güvenmek yerine seçici olarak girdi dizisinin farklı bölümlerine odaklanmasını sağlar. Bu, özellikle uzun diziler için performansı önemli ölçüde artırmıştır. Bu kavram, tamamen dikkat mekanizmalarına dayanan Transformer gibi mimarilerin önünü açmış, yinelemeyi tamamen ortadan kaldırmış ve BERT ve GPT gibi modellerin temeli haline gelmiştir.

Gerçek Dünya Uygulamaları

Seq2Seq modelleri, girdi ve çıktının sıralı olduğu ancak uzunluk veya yapı bakımından bire bir örtüşmeyebileceği görevlerde mükemmeldir. Anahtar uygulamalar şunları içerir:

  • Makine Çevirisi: Metni bir dilden diğerine çevirme (örneğin, Google Translate veya DeepL Translator gibi hizmetlere güç sağlama). Bu, Seq2Seq modellerinin ilk büyük başarılarından biriydi.
  • Metin Özetleme: Daha uzun bir belge veya makaleden kısa bir özet oluşturma. Girdi uzun metin dizisidir ve çıktı daha kısa özet dizisidir.
  • Diyaloğa Dayalı Yapay Zeka / Sohbet Robotları: Bir diyalog sisteminde yanıtlar üretme. Girdi, kullanıcının sorgusu veya ifadesidir ve çıktı, sohbet robotunun yanıtıdır. Google Dialogflow gibi platformlar bu tür teknolojileri kullanır.
  • Konuşma Tanıma: Konuşulan sesin (bir dizi ses özelliği) metne (bir dizi kelime) dönüştürülmesi.
  • Resim Altyazısı Oluşturma: Bir görüntü için metinsel bir açıklama (çıktı dizisi) oluşturma (girdi dizisi, genellikle bir CNN tarafından çıkarılan özellikler olarak temsil edilir). Girdi tam olarak sıralı olmasa da, çıktı oluşturma süreci Seq2Seq paradigmasına uyar.
  • Kod Üretimi: Doğal dil tanımlarına dayalı programlama kodu üretme.

Temel Kavramlar ve Değerlendirmeler

Seq2Seq modellerinin oluşturulması ve eğitilmesi birkaç önemli kavramı içerir:

  • Gömmeler: Girdi kelimeleri veya belirteçleri kodlayıcıya beslenmeden önce tipik olarak yoğun vektör temsillerine dönüştürülür.
  • Zaman İçindeGeriye Yayılım (BPTT): Ağı dizi uzunluğu boyunca açarak RNN'leri eğitmek için standart yöntem.
  • Uzun Dizilerin İşlenmesi: Temel RNN'ler, kaybolan gradyan sorunu gibi sorunlar nedeniyle uzun bağımlılıklarla mücadele eder. LSTM'ler ve GRU'lar bunu hafifletmek için tasarlanmıştır ve dikkat mekanizmaları uzun dizilerde performansı daha da artırır. Transformatör modelleri burada mükemmeldir.
  • Değerlendirme Metrikleri: Göreve bağlı olarak, BLEU (çeviri için), ROUGE (özetleme için) veya doğruluk/F1-skor (dizi etiketleme için) gibi ölçütler kullanılır. Ultralytics , performans ölçütleri hakkında rehberlik sağlar.

Seq2Seq ve Diğer Mimariler

RNN'lere dayalı Seq2Seq modelleri çığır açıcı olsa da, alan gelişmiştir:

  • Standart RNN'ler: Tipik olarak dizileri aynı uzunluktaki dizilerle eşleştirir veya tüm dizileri sınıflandırır, değişken çıktı uzunlukları için kodlayıcı-kod çözücü yapısının esnekliğinden yoksundur.
  • Transformatörler: Artık daha önce RNN tabanlı Seq2Seq modelleri tarafından ele alınan birçok NLP görevine hakimdir. Yineleme yerine öz dikkat ve konumsal kodlamalar kullanarak daha iyi paralelleştirmeye ve uzun menzilli bağımlılıkları daha etkili bir şekilde yakalamaya olanak tanırlar. Ultralytics tarafından desteklenen Baidu'nun RT-DETR gibi modeller, nesne algılama için Transformer bileşenlerini içerir.
  • CNN'ler: Öncelikle görüntüler gibi ızgara benzeri veriler için kullanılır (örn. Ultralytics YOLO algılama ve segmentasyon için modeller), ancak bazen sekans görevleri için uyarlanmıştır.

Seq2Seq genellikle RNN tabanlı kodlayıcı-kod çözücü yapısına atıfta bulunsa da, bir ara temsil kullanarak giriş dizilerini çıkış dizilerine eşleme genel ilkesi, çeviri ve özetlemede kullanılan Dönüştürücüler de dahil olmak üzere birçok modern mimarinin merkezinde yer almaktadır. Gibi araçlar PyTorch ve TensorFlow hem geleneksel hem de modern sekans modellerini uygulamak için yapı taşları sağlar. Eğitim sürecini yönetmek Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.

Tümünü okuyun