مسرد المصطلحات

لونجفورمر

اكتشف Longformer، وهو نموذج المحول المحسّن للتسلسلات الطويلة، مما يوفر كفاءة قابلة للتطوير في معالجة اللغات الطبيعية وعلم الجينوم وتحليل الفيديو.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

المحول الطويل هو نوع من نماذج المحولات المصممة خصيصًا لمعالجة التسلسلات الطويلة جدًا من النصوص بكفاءة. تم تطويره من قبل معهد ألين للذكاء الاصطناعي (AI2)، وهو يعالج القيد الرئيسي لنماذج المحولات القياسية مثل BERT و GPT، والتي تزداد متطلباتها الحسابية والذاكرة بشكل رباعي مع طول التسلسل. وهذا يجعل المحولات القياسية غير عملية بالنسبة للمهام التي تتضمن آلاف الرموز، مثل معالجة مستندات أو كتب أو محادثات طويلة كاملة. يستخدم Longformer آلية انتباه مُحسّنة للتعامل مع هذه التسلسلات الطويلة، مما يجعل من الممكن تطبيق قوة المحولات على نطاق أوسع من مهام معالجة اللغات الطبيعية (NLP).

كيف يعمل لونجفورمر

يكمن الابتكار الأساسي لـ Longformer في نمط الانتباه الذاتي الفعال. تستخدم المحولات القياسية آلية انتباه ذاتي "كاملة" حيث يحضر كل رمز مميز كل رمز مميز آخر في التسلسل. وعلى الرغم من قوتها، فإن هذا يؤدي إلى عنق زجاجة التعقيد التربيعي. يستبدل Longformer هذا بمجموعة من أنماط الانتباه:

  1. نافذة انزلاق الانتباه: يهتم كل رمز فقط بنافذة ذات حجم ثابت من الرموز المجاورة حوله. هذا يلتقط السياق المحلي بفعالية ويتدرج خطيًا مع طول التسلسل.
  2. انتباه النافذة المنزلقة المتوسعة: لزيادة الحقل الاستقبالي دون إضافة عملية حسابية، يمكن "توسيع النافذة"، مما يعني أنها تتخطى بعض الرموز داخل نطاق رؤيتها، مما يسمح لها بالتقاط المعلومات من الرموز البعيدة مع الاستمرار في الانتباه إلى عدد ثابت فقط.
  3. اهتمام عالمي: بعض الرموز المميزة المحددة مسبقًا (على سبيل المثال، الرموز المميزة الخاصة مثل [CLS] المستخدمة لمهام التصنيف) مسموح لها بحضور التسلسل بأكمله، ويمكن للتسلسل بأكمله أن يحضر إليها. وهذا يضمن إمكانية دمج المعلومات الخاصة بالمهمة على مستوى العالم.

يسمح هذا المزيج ل Longformer ببناء تمثيلات سياقية تتضمن معلومات محلية وعالمية على حد سواء، على غرار المحولات القياسية، ولكن بتعقيد حسابي يتدرج خطيًا، وليس تربيعيًا، مع طول التسلسل. هذا يجعل معالجة تسلسلات بعشرات الآلاف من الرموز ممكنة، مقارنةً بالحدود النموذجية البالغة 512 أو 1024 رمزًا لنماذج مثل BERT. تتوافر تطبيقات متاحة بسهولة في مكتبات مثل محولاتHugging Face .

الميزات والفوائد الرئيسية

  • الكفاءة: التحجيم الخطي للعمليات الحسابية والذاكرة مع طول التسلسل، مما يتيح معالجة مستندات أطول بكثير.
  • قابلية التوسع: يمكن التعامل مع تسلسلات تصل أطوالها إلى أطوال محدودة بشكل أساسي بذاكرة الأجهزة (على سبيل المثال، 4096 رمزًا أو أكثر، مقارنةً ب 512 رمزًا لمختبر الاستجابة للطوارئ البيولوجية القياسي).
  • الأداء: يحافظ على أداء قوي في مهام البرمجة اللغوية العصبية المختلفة، وغالبًا ما يتفوق على النماذج التي تقتصر على سياقات أقصر عندما تكون التبعيات بعيدة المدى مهمة.
  • المرونة: يمكن استخدامها كبديل لطبقات المحولات القياسية في العديد من بنيات التعلم العميق.
  • التدريب المسبق والضبط الدقيق: يمكن تدريبها مسبقًا على مجموعات نصية كبيرة ثم ضبطها لمهام نهائية محددة، على غرار نماذج المحولات الأخرى.

التطبيقات الواقعية

تُتيح قدرة Longformer على التعامل مع التسلسلات الطويلة إمكانات في مجالات مختلفة:

  • تلخيص المستندات: تلخيص المقالات أو الأوراق البحثية أو التقارير المطولة التي قد تتوزع فيها المعلومات المهمة على النص بأكمله. قد تفوت النماذج القياسية السياق بسبب الاقتطاع.
  • الإجابة عن الأسئلة على المستندات الطويلة: الإجابة على الأسئلة بناءً على المعلومات الواردة في المستندات الطويلة مثل العقود القانونية أو الكتيبات التقنية أو الكتب، دون الحاجة إلى تقسيم المستند إلى أجزاء أصغر قد تكون خارجة عن السياق. على سبيل المثال، يمكن للذكاء الاصطناعي القانوني استخدام برنامج Longformer القانوني للعثور على البنود ذات الصلة في عقد من 100 صفحة.
  • تحليل الأدبيات العلمية: معالجة وفهم العلاقات والنتائج المعقدة في الأوراق العلمية الكاملة وفهمها لمهام مثل استخراج المعلومات أو بناء الرسم البياني المعرفي.
  • أنظمة الحوار: تحليل تاريخ المحادثات الطويلة في روبوتات الدردشة الآلية أو المساعدين الافتراضيين للحفاظ على سياق وتماسك أفضل خلال التفاعلات الممتدة.

الأهمية في الذكاء الاصطناعي/التشغيل الآلي

يمثل Longformer خطوة مهمة إلى الأمام في تمكين نماذج التعلم العميق من فهم النصوص الطويلة والاستدلال عليها. من خلال التغلب على عنق زجاجة التعقيد التربيعي للمحوّلات القياسية، فإنه يسمح لنماذج اللغة الكبيرة (LLMs) بمعالجة المهام التي تتضمن المستندات والكتب والحوارات الموسعة بشكل أكثر فعالية. تعد هذه القدرة ضرورية للتطبيقات التي تتطلب فهمًا سياقيًا عميقًا، مما يدفع حدود ما يمكن أن يحققه الذكاء الاصطناعي (AI) في معالجة اللغة البشرية الموجودة في تنسيقات مطولة.

في حين أن نماذج مثل Ultralytics YOLO11 تتفوق في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام وتجزئة الصور، فإن Longformer توفر تطورات مماثلة للتعامل مع البيانات النصية المعقدة والطويلة في مجال البرمجة اللغوية العصبية. تعمل أدوات مثل Ultralytics HUB على تبسيط نشر نماذج الذكاء الاصطناعي المختلفة وإدارتها، بما في ذلك نماذج البرمجة اللغوية العصبية مثل Longformer التي تم ضبطها لمهام محددة باستخدام أطر عمل مثل PyTorch أو TensorFlow.

مقارنة مع المصطلحات ذات الصلة

  • المحول القياسي: المحول الطويل هو تعديل لبنية المحول القياسي. يتمثل الاختلاف الرئيسي في آلية الانتباه الفعال التي يستخدمها لونجفورمر (النافذة المنزلقة + الانتباه الشامل) المصممة للتسلسلات الطويلة، في حين تستخدم المحولات القياسية الانتباه الذاتي الكامل، وهو أمر مكلف حسابيًا للمدخلات الطويلة.
  • المصلح: يستخدم متغير آخر فعال من المتحولات، وهو المُصلِح، تقنيات مثل الاهتمام بالتجزئة الحساسة للموقع (LSH) والطبقات المتبقية القابلة للعكس لتقليل الذاكرة والتكاليف الحسابية. بينما يستهدف كلاهما التسلسلات الطويلة، إلا أنهما يستخدمان أساليب تقنية مختلفة لتحقيق الكفاءة.
  • المحول-XL: يقدم Transformer-XL التكرار والتضمينات الموضعية النسبية للتعامل مع سياقات أطول من المحولات القياسية، وهو مفيد بشكل خاص في نمذجة اللغة الانحدارية التلقائية. يركز المحول الطويل بشكل أكبر على السياقات ثنائية الاتجاه داخل تسلسل طويل واحد باستخدام نمط الانتباه الخاص به.
قراءة الكل