Sözlük

Longformer

NLP, genomik ve video analizi için ölçeklenebilir verimlilik sunan, uzun diziler için optimize edilmiş dönüştürücü modeli Longformer'ı keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Longformer, BERT (Transformatörlerden Çift Yönlü Kodlayıcı Temsilleri) gibi önceki modellerde bulunan sınırlamaların üstesinden gelerek çok uzun metin dizilerini verimli bir şekilde işlemek için tasarlanmış özel bir Transformatör tabanlı modeldir. Allen Yapay Zeka Enstitüsü'ndeki (AI2) araştırmacılar tarafından geliştirilen Longformer, standart Transformer modellerinin binlerce jetonu işlerken karşılaştığı hesaplama karmaşıklığı sorununu çözerek uzun belgeleri içeren görevler için uygun hale getirmektedir. Bu özellik, geniş metin aralıklarında bağlamı anlamayı gerektiren Doğal Dil İşleme (NLP) uygulamalarını ilerletmek için çok önemlidir.

Longformer Nasıl Çalışır?

Standart Transformatör modelleri, her belirtecin diğer her belirtece katıldığı tam bir kendi kendine dikkat mekanizması kullanır. Güçlü olmasına rağmen, bu mekanizmanın bellek ve hesaplama gereksinimleri dizi uzunluğu ile kuadratik olarak büyür, bu da birkaç yüz belirteçten daha uzun diziler için pratik değildir. Longformer, dizi uzunluğu ile doğrusal olarak ölçeklenen verimli bir dikkat modeli sunar. Öncelikle aşağıdakilerin bir kombinasyonunu kullanır:

  • Kayan Pencere Dikkati: Her bir belirteç yalnızca her iki taraftaki sabit sayıda komşu belirteçle ilgilenir ve yerel bir bağlam penceresi oluşturur.
  • Genişletilmiş Kayar Pencereler: Hesaplamayı önemli ölçüde artırmadan alıcı alanı artırmak için, bazı pencereli dikkat katmanları, belirteçlerin daha uzaktaki belirteçlere dolaylı olarak katılmasına izin veren boşluklar (dilatasyon) kullanır.
  • Küresel Dikkat: Önceden seçilmiş az sayıda belirtecin tüm diziye katılmasına izin verilir ve tüm dizi bunlara katılabilir. Bu genellikle görev için çok önemli olan belirli belirteçler için kullanılır, örneğin [CLS] sınıflandırma görevlerinde belirteç.

Bu değiştirilmiş dikkat mekanizması, Longformer'ın güçlü performansını korurken, BERT gibi modellerin tipik 512 jeton sınırından önemli ölçüde daha uzun olan on binlerce jetona kadar girdileri işlemesine olanak tanır. Bu verimlilik, gerçek dünyadaki birçok makine öğrenimi (ML) görevi için hayati önem taşımaktadır.

Diğer Modellerden Temel Farklılıklar

Longformer ile BERT veya GPT-2 gibi modeller arasındaki temel fark, verimli bir şekilde işleyebilecekleri maksimum dizi uzunluğunda yatmaktadır. BERT 512 belirteçle sınırlıyken, Longformer çok daha uzun dizileri yönetebilir. Reformer veya Transformer-XL gibi uzun diziler için tasarlanmış diğer modeller, verimlilik elde etmek için yerelliğe duyarlı karma veya yineleme mekanizmaları gibi farklı teknikler kullanır. Longformer'ın orijinal araştırma makalesinde ayrıntılı olarak açıklanan yaklaşımı, ince ayar yapıldıktan sonra çeşitli alt görevler için uygun esnek bir yerel ve küresel dikkat kombinasyonu sağlar.

Uygulamalar ve Kullanım Örnekleri

Longformer'ın uzun belgeleri işleme yeteneği, daha önce zor olan veya belgeleri bölmek gibi karmaşık geçici çözümler gerektiren çok sayıda NLP görevi için olanaklar sağlar.

  • Belge Düzeyinde Soru Yanıtlama: Hukuki metinler, teknik kılavuzlar veya uzun raporlar gibi, cevabın paragraflara veya sayfalara yayılmış bilgilere bağlı olabileceği kapsamlı belgeler içinde cevapları bulmak.
  • Uzun Belge Özetleme: Tam belgenin bağlamını anlayarak tüm makalelerin, araştırma makalelerinin veya kitap bölümlerinin kısa özetlerini oluşturma.
  • Çekirdek Aktarım Çözümü: Uzun metin parçaları boyunca aynı varlığa atıfta bulunan sözlerin belirlenmesi.
  • Bilimsel Literatür Analizi: Yoğun akademik makalelerden bilgi işleme ve çıkarma. Gibi platformlar Hugging FaceTransformers kütüphanesi aracılığıyla bu uygulamalar için önceden eğitilmiş Longformer modellerine kolay erişim sağlar.

Yapay Zeka/ML'de Önem

Longformer, derin öğrenme modellerinin uzun biçimli metinleri anlamasını ve bunlar üzerinde mantık yürütmesini sağlamada önemli bir adımı temsil etmektedir. Standart Dönüştürücülerin ikinci dereceden karmaşıklık darboğazını aşarak, Büyük Dil Modellerinin (LLM 'ler) belgeler, kitaplar ve genişletilmiş diyalogları içeren görevlerin üstesinden daha etkili bir şekilde gelmesine olanak tanır. Bu yetenek, derin bağlamsal anlayış gerektiren uygulamalar için çok önemlidir ve yapay zekanın uzun formatlarda bulunan insan dilini işlemede başarabileceklerinin sınırlarını zorlar. Ultralytics YOLO gibi modeller nesne algılama gibi bilgisayarla görme görevlerinde üstünlük sağlarken, Longformer karmaşık, uzun biçimli metinsel verilerin işlenmesi için benzer gelişmeler sağlar. Ultralytics HUB gibi araçlar, potansiyel olarak belirli NLP görevleri için ince ayarlanmış olanlar da dahil olmak üzere çeşitli AI modellerinin dağıtımını ve yönetimini kolaylaştırır.

Tümünü okuyun