Sözlük

Longformer

NLP, genomik ve video analizi için ölçeklenebilir verimlilik sunan, uzun diziler için optimize edilmiş dönüştürücü modeli Longformer'ı keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Longformer, olağanüstü uzun veri dizilerini geleneksel transformatörlerden daha verimli bir şekilde işlemek için tasarlanmış bir tür transformatör modeli mimarisidir. Bu geliştirme, dizi uzunluğu ile kuadratik olarak ölçeklenen hesaplama kısıtlamaları nedeniyle uzun girdilerle mücadele eden standart transformatör modellerinin önemli bir sınırlamasını ele alır.

Longformer'ı Anlamak

Geleneksel dönüştürücü modelleri güçlü olmakla birlikte, uzun metin, ses veya video dizilerini işlerken zorluklarla karşılaşır. Dikkat mekanizmalarının hesaplama karmaşıklığı, girdi dizisi uzunluğu ile kuadratik olarak artar, bu da onu uzun belgeler veya yüksek çözünürlüklü girdiler için kullanışsız hale getirir. Longformer, dizi uzunluğu ile doğrusal olarak ölçeklenen bir dikkat mekanizması sunarak bu sorunu çözmektedir. Bu yenilik, modelin binlerce hatta on binlerce jetondan oluşan girdileri işlemesine olanak tanıyarak çeşitli yapay zeka görevlerinde daha uzun bağlamları işlemek için yeni olanaklar sunuyor.

Longformer'ın verimliliğinin anahtarı, farklı dikkat türlerini birleştiren hibrit dikkat mekanizmasıdır:

  • Kayan Pencere Dikkati: Her bir belirteç, etrafındaki sabit sayıda belirteçle ilgilenerek yerel bir bağlam oluşturur. Bu, hesaplama açısından verimlidir ve yerel bağımlılıkları etkili bir şekilde yakalar.
  • Küresel Dikkat: Önceden tanımlanmış belirli belirteçler diğer tüm belirteçlere katılır ve tüm belirteçler bu küresel belirteçlere katılır. Bu, modelin küresel temsilleri öğrenmesini ve uzun sekans boyunca genel bağlamı korumasını sağlar.
  • Genişletilmiş Kayan Pencere Dikkati: Kayan pencere dikkatine benzer, ancak pencerede boşluklar (genişleme) ile, benzer hesaplama maliyeti ile daha büyük bir etkili alıcı alana izin verir.

Bu dikkat mekanizmalarını stratejik olarak birleştiren Longformer, uzun girdileri anlamak için çok önemli olan uzun menzilli bağımlılıkları modelleme yeteneğini korurken hesaplama yükünü önemli ölçüde azaltır. Bu, Longformer'ı özellikle belgeler, makaleler veya konuşmalarla ilgili doğal dil işleme (NLP) görevlerinde ve yüksek çözünürlüklü görüntüler veya videolar içeren bilgisayarla görme görevlerinde değerli kılar.

Longformer Uygulamaları

Longformer'ın uzun dizileri işleme yeteneği, onu bağlam uzunluğunun kritik olduğu bir dizi uygulama için uygun hale getirir:

  • Belge Özetleme: Tutarlı özetler oluşturmak için tüm belgelerin anlaşılmasını gerektiren görevlerde Longformer, tam metin girdisini işleyerek üstünlük sağlar. Örneğin, uzun raporlardan elde edilen bağlamın önemli olduğu yasal veya tıbbi görüntü analizinde Longformer, sınırlı bağlam pencerelerine sahip modellere kıyasla daha kapsamlı ve doğru özetler sağlayabilir.
  • Uzun Belgeler Üzerinden Soru Cevaplama: Longformer, kapsamlı belgelerden bilgi alması gereken soru yanıtlama sistemlerinde oldukça etkilidir. Örneğin, yasal yapay zeka uygulamalarında Longformer, uzun dava belgelerine veya tüzüklere dayanan belirli yasal soruları yanıtlamak için kullanılabilir ve bir seferde yalnızca metin parçacıklarını işleyebilen modellere göre önemli bir avantaj sunar.
  • Genomik Verilerin İşlenmesi: Longformer'ın mimarisi, metnin ötesinde, genomik diziler de dahil olmak üzere diğer sıralı veri türlerine uyarlanabilir. Biyoinformatikte, uzun DNA veya RNA dizilerini analiz etmek biyolojik süreçleri ve hastalıkları anlamak için çok önemlidir. Longformer, daha kısa bağlam yeteneklerine sahip modeller tarafından gözden kaçırılabilecek kalıpları ve ilişkileri tanımlamak için bu uzun dizileri işleyebilir.
  • Uzun Video Analizi: Videoları içeren bilgisayarla görme görevlerinde, özellikle de uzun süreler boyunca olayları anlamayı gerektirenlerde, Longformer uzun kare dizilerini işlemek için uygulanabilir. Bu, zamansal bağlamın hayati önem taşıdığı gözetim veya uzun cerrahi prosedürlerin analizi gibi uygulamalarda faydalıdır.

Longformer ve Transformatör Modelleri

Longformer, orijinal Transformer mimarisinin bir evrimidir ve özellikle uzun dizilerle uğraşırken standart transformatörlerin hesaplama sınırlamalarının üstesinden gelmek için tasarlanmıştır. Geleneksel transformatörler kuadratik olarak karmaşık olan tam öz dikkati kullanırken, Longformer doğrusal karmaşıklık elde etmek için seyrek dikkat modelleri sunar. Bu, Longformer'ı uzun menzilli bağımlılıklar içeren görevler için daha ölçeklenebilir ve verimli bir seçenek haline getirirken, bağlamsal ilişkileri yakalamada transformatör mimarisinin temel güçlü yönlerini de korur. Daha kısa girdi dizilerine sahip görevler için standart dönüştürücüler yeterli olabilir, ancak kapsamlı bağlamın işlenmesini gerektiren uygulamalar için Longformer önemli bir avantaj sağlar. YOLO -NAS veya aşağıdaki gibi diğer model mimarilerini keşfedebilirsiniz RT-DETRUltralytics ekosisteminde verimli ve doğru nesne algılama görevleri için tasarlanan ve yapay zekadaki model mimarilerinin çeşitli manzarasını sergileyen.

Tümünü okuyun