اكتشف قوة الانتباه الذاتي في الذكاء الاصطناعي، وإحداث ثورة في البرمجة اللغوية العصبية والرؤية الحاسوبية والتعرف على الكلام بدقة مدركة للسياق.
الانتباه الذاتي هو آلية تمكّن النموذج من الموازنة بين أهمية العناصر المختلفة ضمن تسلسل مدخلات واحد. فبدلاً من التعامل مع كل جزء من المدخلات على قدم المساواة، تسمح للنموذج بالتركيز بشكل انتقائي على الأجزاء الأكثر أهمية عند معالجة عنصر معين. تعد هذه القدرة حاسمة لفهم السياق والتبعيات بعيدة المدى والعلاقات داخل البيانات، وتشكل حجر الأساس للعديد من بنيات الذكاء الاصطناعي الحديثة، وخاصةً المحول. وقد تم تقديمها بشكل شهير في الورقة البحثية الأساسية "الانتباه هو كل ما تحتاجه"، والتي أحدثت ثورة في مجال معالجة اللغات الطبيعية (NLP).
في جوهره، يعمل الانتباه الذاتي من خلال تعيين "درجة انتباه" لكل عنصر آخر في تسلسل الإدخال بالنسبة للعنصر الذي تتم معالجته حاليًا. يتم تحقيق ذلك من خلال إنشاء ثلاثة متجهات لكل عنصر مُدخل: استعلام (Q)، ومفتاح (K)، وقيمة (V).
بالنسبة لاستعلام معين، تحسب الآلية تشابهه مع جميع المفاتيح في التسلسل. ثم يتم تحويل درجات التشابه هذه إلى أوزان (غالبًا باستخدام دالة softmax )، والتي تحدد مقدار التركيز الذي يجب أن يوضع على قيمة كل عنصر. الناتج النهائي للاستعلام هو مجموع مرجح لجميع القيم، مما يؤدي إلى إنشاء تمثيل جديد لهذا العنصر غني بالسياق من التسلسل بأكمله. هذه العملية هي جزء أساسي من كيفية عمل نماذج اللغة الكبيرة (LLMs). يمكن العثور على شرح مرئي ممتاز لعملية Q-K-V هذه في مصادر مثل مدونة جاي آلمار.
الانتباه الذاتي هو نوع محدد من آليات الانتباه. والتمييز الرئيسي هو مصدر متجهات الاستعلام والمفتاح والقيمة.
بينما شاع لأول مرة في مجال البرمجة اللغوية العصبية لمهام مثل تلخيص النصوص والترجمة، فقد أثبت الانتباه الذاتي فعاليته العالية في مجال الرؤية الحاسوبية أيضًا.
تستمر الأبحاث في تحسين آليات الانتباه الذاتي، بهدف زيادة الكفاءة الحسابية (على سبيل المثال، طرق مثل FlashAttention ومتغيرات الانتباه المتناثرة) وقابلية التطبيق على نطاق أوسع. ومع ازدياد تعقيد نماذج الذكاء الاصطناعي، من المتوقع أن يظل الانتباه الذاتي تقنية أساسية تقود التقدم في مجالات من تطبيقات الذكاء الاصطناعي المتخصصة مثل الروبوتات إلى السعي وراء الذكاء الاصطناعي العام (AGI). تعمل أدوات ومنصات مثل Ultralytics HUB على تسهيل تدريب ونشر النماذج التي تتضمن هذه التقنيات المتقدمة، والتي غالباً ما تكون متاحة عبر مستودعات مثل Hugging Face وتم تطويرها باستخدام أطر عمل مثل PyTorch و TensorFlow.