Reformer هو متغير فعال من بنية المحولات القياسية، مصمم خصيصًا للتعامل مع التسلسلات الطويلة جدًا، والتي تشكل تحديات حسابية وذاكرة كبيرة بالنسبة للمتحولات التقليدية. تم تقديم Reformer من قبل باحثين في Google Research، وهو يتضمن العديد من الابتكارات لتقليل استخدام الذاكرة والتكلفة الحسابية بشكل كبير. وهذا يجعل من الممكن معالجة نماذج التسلسل إلى تسلسل بمئات الآلاف أو حتى ملايين العناصر، بما يتجاوز الحدود النموذجية للمحوّلات القياسية الموجودة في العديد من تطبيقات التعلّم العميق (DL). تفتح هذه الكفاءة إمكانيات تطبيق النماذج الشبيهة بالمحوّلات على المهام التي تنطوي على سياق واسع، مثل معالجة كتب كاملة أو صور عالية الدقة يتم التعامل معها كتسلسلات من البكسل أو مقطوعات موسيقية طويلة.
المفاهيم الأساسية للمصلح
يحقق المصلح كفاءته في المقام الأول من خلال تقنيتين رئيسيتين:
- التجزئة الحساسة للموقع (LSH) الانتباه: تستخدم التحويلات القياسية آلية انتباه ذاتي حيث ينتبه كل عنصر إلى كل عنصر آخر، مما يؤدي إلى تعقيد حسابي ينمو بشكل تربيعي مع طول التسلسل. يستبدل المُصلح ذلك بآلية انتباه LSH، التي تستخدم التجزئة الحساسة للموقع (LSH) لتجميع العناصر المتشابهة (المتجهات) معًا. ثم يتم حساب الانتباه داخل هذه المجموعات أو المجموعات القريبة منها فقط، مما يقرب من آلية الانتباه الكامل بتكلفة حسابية أقل بكثير، أقرب إلى التعقيد الخطي.
- طبقات عكسية: تكدس المحولات طبقات متعددة، وأثناء تدريب النموذج، عادةً ما يتم تخزين التنشيطات من كل طبقة في الذاكرة لاستخدامها أثناء الترحيل العكسي. يستهلك هذا كمية كبيرة من الذاكرة، خاصةً بالنسبة للنماذج العميقة أو التسلسلات الطويلة. يستخدم المصلح الطبقات المتبقية القابلة للانعكاس، والتي تسمح بإعادة حساب تنشيط أي طبقة من تنشيط الطبقة التالية أثناء الترحيل العكسي، بدلاً من تخزينها. هذا يقلل بشكل كبير من استهلاك الذاكرة المتعلقة بتخزين مخرجات دالة التنشيط، مما يسمح بنماذج أعمق أو تسلسلات أطول ضمن قيود ذاكرة معينة.
المصلح مقابل المحول القياسي
في حين أن كلتا البنيتين تعتمدان على آلية الانتباه، يختلف المُصلح اختلافًا كبيرًا عن النماذج القياسية القائمة على المحولات:
- آلية الانتباه: تستخدم المحولات القياسية الانتباه الذاتي الكامل، بينما يستخدم الإصلاحي الانتباه التقريبي القائم على LSH.
- استخدام الذاكرة: يقلل المُصلح من استخدام الذاكرة بشكل كبير من خلال الطبقات القابلة للعكس، في حين أن المحولات القياسية تخزن التفعيلات لجميع الطبقات.
- التكلفة الحسابية: يقلل انتباه المصلح LSH بشكل كبير من العبء الحسابي مقارنةً بالتعقيد التربيعي للانتباه الكامل، خاصةً بالنسبة للتسلسلات الطويلة جدًا.
- المقايضات: قد تؤدي عمليات التقريب (انتباه LSH) إلى انخفاض طفيف في الدقة مقارنةً بالانتباه الكامل في بعض المهام، على الرغم من أن مكاسب الكفاءة غالباً ما تفوق ذلك في التطبيقات التي تتضمن تسلسلات طويلة للغاية حيث تكون المحولات القياسية غير قابلة للتطبيق. تستخدم البدائل الفعالة مثل Longformer أنماط انتباه متفرقة مختلفة لتحقيق أهداف مماثلة. غالبًا ما ينطوي تحسين هذه المفاضلات على ضبط دقيق للمقاييس الفائقة.
التطبيقات
إن قدرة المصلح على معالجة التسلسلات الطويلة تجعله مناسبًا لمختلف المهام في مجال الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، خاصةً في مجال معالجة اللغات الطبيعية (NLP) وما بعدها:
- تحليل المستندات الطويلة: تلخيص أو الإجابة عن أسئلة حول كتب كاملة أو مقالات بحثية مطولة أو مستندات قانونية يمتد سياقها لآلاف أو ملايين الكلمات. على سبيل المثال، يمكن استخدام نموذج المصلح لتوليد ملخص موجز لتقرير تقني متعدد الفصول.
- علم الجينوم: معالجة تسلسلات الحمض النووي أو البروتين الطويلة للتحليل والتعرف على الأنماط.
- معالجة الوسائط الطويلة: تحليل الملفات الصوتية الطويلة للتعرّف على الكلام، أو توليد الموسيقى بناءً على التراكيب الممتدة، أو تحليل الفيديو على فترات طويلة. مثال على ذلك تدوين الاجتماعات أو المحاضرات التي تستغرق ساعات طويلة بكفاءة.
- توليد الصور: تتعامل بعض الأساليب مع الصور كتسلسلات من وحدات البكسل، خاصةً للصور عالية الدقة. من المحتمل أن يتعامل المُصلح مع هذه التسلسلات الطويلة جدًا لمهام مثل توليد النص إلى صورة.
- تحليل السلاسل الزمنية الممتدة: نمذجة بيانات السلاسل الزمنية الطويلة جدًا، مثل التنبؤ باتجاهات سوق الأسهم على مدى عقود أو تحليل البيانات المناخية طويلة الأجل.
في حين أن نماذج مثل Ultralytics YOLO تركز على الكشف الفعال عن الأجسام في الصور، وغالبًا ما تستخدم الشبكات العصبية التلافيفية (CNNs) أو البنى الهجينة مثل RT-DETR المبنية باستخدام أطر عمل مثل PyTorch، فإن مبادئ الكفاءة الحسابية وكفاءة الذاكرة التي تم استكشافها في الإصلاحي ذات صلة بمجال اكتشاف الأجسام في الصور. يساعد فهم هذه التطورات في دفع عجلة الابتكار نحو نماذج ذكاء اصطناعي أكثر قدرة وسهولة في الوصول إليها، بما في ذلك نماذج اللغات الكبيرة (LLMs). تهدف منصات مثل Ultralytics HUB إلى تبسيط تطوير الذكاء الاصطناعي ونشر النماذج. وتسلط مقارنة كفاءة النماذج، مثل YOLO11 مقابل YOLOv10، الضوء على الجهود المستمرة لتحقيق التوازن بين الأداء واستخدام الموارد. لمزيد من التفاصيل الفنية، راجع ورقة بحث المصلح الأصلية.