استكشف بنية Longformer لمعالجة تسلسلات البيانات الطويلة بكفاءة. تعرف على كيفية تغلب الاهتمام المتفرق على حدود الذاكرة في معالجة اللغة الطبيعية والرؤية الحاسوبية.
Longformer هو نوع متخصص من بنية التعلم العميق المصمم لمعالجة تسلسلات طويلة من البيانات بكفاءة، متغلبًا على قيود النماذج التقليدية. تم تقديم Longformer في الأصل لمعالجة قيود المحولات القياسية، التي تواجه عادةً صعوبات في التعامل مع التسلسلات التي يزيد طولها عن 512 رمزًا بسبب قيود الذاكرة، ويستخدم Longformer آلية انتباه معدلة . من خلال تقليل تعقيد الحوسبة من التربيعي إلى الخطي، تسمح هذه البنية لأنظمة الذكاء الاصطناعي بتحليل مستندات كاملة، نصوص طويلة، أو تسلسلات جينية معقدة في خطوة واحدة دون اقتطاع المدخلات.
لفهم أهمية Longformer، من الضروري النظر إلى قيود سابقاتها مثل BERT ونماذج GPT-3 المبكرة. تستخدم المحولات القياسية عملية "الانتباه الذاتي" حيث ينتبه كل رمز (كلمة أو جزء من كلمة) إلى كل رمز آخر في التسلسل. وهذا يخلق تكلفة حسابية تربيعية؛ حيث يؤدي مضاعفة طول التسلسل إلى مضاعفة الذاكرة المطلوبة على ال GPU. وبالتالي، تفرض معظم النماذج القياسية حدًا صارمًا على حجم الإدخال، مما يجبر علماء البيانات في كثير من الأحيان على تقسيم المستندات إلى أجزاء أصغر ومفصولة، مما يؤدي إلى فقدان السياق.
يحل Longformer هذه المشكلة من خلال إدخال Sparse Attention. بدلاً من الاتصال الكامل بين جميع العناصر، يستخدم مزيجًا من الانتباه المحلي المحدد والانتباه الشامل:
[CLS])
تتولى جميع الرموز الأخرى في التسلسل، وجميع الرموز تتولى أمرها. وهذا يضمن احتفاظ النموذج بفهم
عالي المستوى للمدخلات الكاملة لمهام مثل
تلخيص النص.
تفتح القدرة على معالجة آلاف الرموز في وقت واحد آفاقًا جديدة لمعالجة اللغة الطبيعية (NLP) وما بعدها.
في مجالات مثل القانون والرعاية الصحية، نادراً ما تكون الوثائق قصيرة. قد يمتد العقد القانوني أو السجل الطبي للمريض على عشرات الصفحات. تتطلب نماذج اللغة الكبيرة (LLMs) التقليدية تجزئة هذه المستندات، مما قد يؤدي إلى فقدان الترابطات المهمة بين بند في الصفحة 1 وتعريف في الصفحة 30. يتيح Longformer التعرف على الكيانات المسماة (NER) وتصنيفها على المستند بأكمله دفعة واحدة، مما يضمن تأثير السياق العام على تفسير المصطلحات المحددة.
غالبًا ما تواجه أنظمة الإجابة على الأسئلة القياسية صعوبة عندما تتطلب الإجابة على سؤال ما تجميع معلومات موزعة على مقال طويل. من خلال الاحتفاظ بالنص الكامل في الذاكرة، يمكن للنماذج القائمة على Longformer إجراء استدلال متعدد القفزات، وربط الحقائق الموجودة في فقرات مختلفة لتوليد إجابة شاملة. وهذا أمر بالغ الأهمية لأنظمة الدعم الفني الآلي وأدوات البحث الأكاديمي .
في حين أن Longformer هي بنية أكثر منها وظيفة محددة، فإن فهم كيفية إعداد البيانات لنماذج السياق الطويل أمر بالغ الأهمية. في الأطر الحديثة مثل PyTorch، غالبًا ما يتضمن ذلك إدارة التضمينات التي تتجاوز الحدود القياسية.
يوضح المثال التالي إنشاء tensor إدخال وهمي tensor سياق طويل، ومقارنته بالحجم النموذجي المستخدم في نماذج الكشف القياسية مثل YOLO26.
import torch
# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))
# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))
print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")
# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.
على الرغم من أن Longformer صُمم في الأصل للنصوص، إلا أن المبادئ الكامنة وراءه أثرت على الرؤية الحاسوبية. إن مفهوم قصر الانتباه على محيط محلي مشابه للعمليات الموضعية في المهام البصرية. تواجه محولات الرؤية (ViT) مشكلات مماثلة في التوسع مع الصور عالية الدقة لأن عدد البكسلات (أو البقع) يمكن أن يكون هائلاً. تُستخدم التقنيات المستمدة من الانتباه المتفرق لـ Longformer لتحسين تصنيف الصور و كفاءة اكتشاف الكائنات، مما يساعد نماذج مثل YOLO26 على الحفاظ على سرعات عالية أثناء معالجة البيانات البصرية التفصيلية .
لمزيد من القراءة حول التفاصيل المعمارية، توفر الورقة البحثية الأصلية من AllenAI معايير مقارنة متعمقة ومبررات نظرية. بالإضافة إلى ذلك، غالبًا ما يستفيد التدريب الفعال لمثل هذه النماذج الكبيرة من تقنيات مثل الدقة المختلطة وخوارزميات التحسين المتقدمة .