Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

Longformer

استكشف بنية Longformer لمعالجة تسلسلات البيانات الطويلة بكفاءة. تعرف على كيفية تغلب الاهتمام المتفرق على حدود الذاكرة في معالجة اللغة الطبيعية والرؤية الحاسوبية.

Longformer هو نوع متخصص من بنية التعلم العميق المصمم لمعالجة تسلسلات طويلة من البيانات بكفاءة، متغلبًا على قيود النماذج التقليدية. تم تقديم Longformer في الأصل لمعالجة قيود المحولات القياسية، التي تواجه عادةً صعوبات في التعامل مع التسلسلات التي يزيد طولها عن 512 رمزًا بسبب قيود الذاكرة، ويستخدم Longformer آلية انتباه معدلة . من خلال تقليل تعقيد الحوسبة من التربيعي إلى الخطي، تسمح هذه البنية لأنظمة الذكاء الاصطناعي بتحليل مستندات كاملة، نصوص طويلة، أو تسلسلات جينية معقدة في خطوة واحدة دون اقتطاع المدخلات.

مشكلة اختناق الانتباه

لفهم أهمية Longformer، من الضروري النظر إلى قيود سابقاتها مثل BERT ونماذج GPT-3 المبكرة. تستخدم المحولات القياسية عملية "الانتباه الذاتي" حيث ينتبه كل رمز (كلمة أو جزء من كلمة) إلى كل رمز آخر في التسلسل. وهذا يخلق تكلفة حسابية تربيعية؛ حيث يؤدي مضاعفة طول التسلسل إلى مضاعفة الذاكرة المطلوبة على ال GPU. وبالتالي، تفرض معظم النماذج القياسية حدًا صارمًا على حجم الإدخال، مما يجبر علماء البيانات في كثير من الأحيان على تقسيم المستندات إلى أجزاء أصغر ومفصولة، مما يؤدي إلى فقدان السياق.

يحل Longformer هذه المشكلة من خلال إدخال Sparse Attention. بدلاً من الاتصال الكامل بين جميع العناصر، يستخدم مزيجًا من الانتباه المحلي المحدد والانتباه الشامل:

  • نافذة منزلقة انتباه: كل رمز لا يهتم إلا بجيرانه المباشرين. وهذا يلتقط السياق المحلي والبنية النحوية، على غرار الطريقة التي تعالج بها الشبكة العصبية التلافيفية (CNN) الصور.
  • نافذة منزلقة موسعة: لزيادة مجال الاستقبال دون زيادة الحساب، يمكن أن تتضمن النافذة فجوات، مما يسمح للنموذج برؤية "أبعد" في النص.
  • الاهتمام العالمي: رموز محددة مختارة مسبقًا (مثل رمز التصنيف [CLS]) تتولى جميع الرموز الأخرى في التسلسل، وجميع الرموز تتولى أمرها. وهذا يضمن احتفاظ النموذج بفهم عالي المستوى للمدخلات الكاملة لمهام مثل تلخيص النص.

تطبيقات واقعية

تفتح القدرة على معالجة آلاف الرموز في وقت واحد آفاقًا جديدة لمعالجة اللغة الطبيعية (NLP) وما بعدها.

1. تحليل الوثائق القانونية والطبية

في مجالات مثل القانون والرعاية الصحية، نادراً ما تكون الوثائق قصيرة. قد يمتد العقد القانوني أو السجل الطبي للمريض على عشرات الصفحات. تتطلب نماذج اللغة الكبيرة (LLMs) التقليدية تجزئة هذه المستندات، مما قد يؤدي إلى فقدان الترابطات المهمة بين بند في الصفحة 1 وتعريف في الصفحة 30. يتيح Longformer التعرف على الكيانات المسماة (NER) وتصنيفها على المستند بأكمله دفعة واحدة، مما يضمن تأثير السياق العام على تفسير المصطلحات المحددة.

2. الإجابة على الأسئلة الطويلة (QA)

غالبًا ما تواجه أنظمة الإجابة على الأسئلة القياسية صعوبة عندما تتطلب الإجابة على سؤال ما تجميع معلومات موزعة على مقال طويل. من خلال الاحتفاظ بالنص الكامل في الذاكرة، يمكن للنماذج القائمة على Longformer إجراء استدلال متعدد القفزات، وربط الحقائق الموجودة في فقرات مختلفة لتوليد إجابة شاملة. وهذا أمر بالغ الأهمية لأنظمة الدعم الفني الآلي وأدوات البحث الأكاديمي .

التمييز بين المصطلحات الرئيسية

  • Longformer مقابل Transformer: يستخدم Transformer القياسي اهتمامًا كاملاً بقيمة $N^2$، مما يجعله دقيقًا ولكنه مكلف من الناحية الحسابية بالنسبة للمدخلات الطويلة. يستخدم Longformer اهتمامًا متفرقًا بقيمة $N$، حيث يستبدل قدرًا ضئيلًا من السعة النظرية بمكاسب هائلة في الكفاءة ، مما يسمح بمدخلات تصل إلى 4096 رمزًا أو أكثر.
  • Longformer مقابل Transformer-XL: بينما يتعامل كلاهما مع التسلسلات الطويلة، يعتمد Transformer-XL على آلية التكرار (تخزين الحالات السابقة مؤقتًا) لتذكر المقاطع السابقة. يعالج Longformer التسلسل الطويل بشكل أصلي دفعة واحدة، مما يبسط التدريب المتوازي على منصات مثل Ultralytics .
  • Longformer مقابل BigBird: هاتان بنية متشابهة للغاية تم تطويرهما في نفس الوقت تقريبًا. كلاهما يستخدم آليات انتباه متفرقة لتحقيق تحجيم خطي. يقدم BigBird مكون انتباه عشوائي محدد بالإضافة إلى النوافذ المنزلقة.

مفاهيم التنفيذ

في حين أن Longformer هي بنية أكثر منها وظيفة محددة، فإن فهم كيفية إعداد البيانات لنماذج السياق الطويل أمر بالغ الأهمية. في الأطر الحديثة مثل PyTorch، غالبًا ما يتضمن ذلك إدارة التضمينات التي تتجاوز الحدود القياسية.

يوضح المثال التالي إنشاء tensor إدخال وهمي tensor سياق طويل، ومقارنته بالحجم النموذجي المستخدم في نماذج الكشف القياسية مثل YOLO26.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

الصلة بالرؤية الحاسوبية

على الرغم من أن Longformer صُمم في الأصل للنصوص، إلا أن المبادئ الكامنة وراءه أثرت على الرؤية الحاسوبية. إن مفهوم قصر الانتباه على محيط محلي مشابه للعمليات الموضعية في المهام البصرية. تواجه محولات الرؤية (ViT) مشكلات مماثلة في التوسع مع الصور عالية الدقة لأن عدد البكسلات (أو البقع) يمكن أن يكون هائلاً. تُستخدم التقنيات المستمدة من الانتباه المتفرق لـ Longformer لتحسين تصنيف الصور و كفاءة اكتشاف الكائنات، مما يساعد نماذج مثل YOLO26 على الحفاظ على سرعات عالية أثناء معالجة البيانات البصرية التفصيلية .

لمزيد من القراءة حول التفاصيل المعمارية، توفر الورقة البحثية الأصلية من AllenAI معايير مقارنة متعمقة ومبررات نظرية. بالإضافة إلى ذلك، غالبًا ما يستفيد التدريب الفعال لمثل هذه النماذج الكبيرة من تقنيات مثل الدقة المختلطة وخوارزميات التحسين المتقدمة .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن