مسرد المصطلحات

الانتباه الذاتي

اكتشف قوة الانتباه الذاتي في الذكاء الاصطناعي، وإحداث ثورة في البرمجة اللغوية العصبية والرؤية الحاسوبية والتعرف على الكلام بدقة مدركة للسياق.

الانتباه الذاتي هو آلية تمكّن النموذج من الموازنة بين أهمية العناصر المختلفة ضمن تسلسل مدخلات واحد. فبدلاً من التعامل مع كل جزء من المدخلات على قدم المساواة، تسمح للنموذج بالتركيز بشكل انتقائي على الأجزاء الأكثر أهمية عند معالجة عنصر معين. تعد هذه القدرة حاسمة لفهم السياق والتبعيات بعيدة المدى والعلاقات داخل البيانات، وتشكل حجر الأساس للعديد من بنيات الذكاء الاصطناعي الحديثة، وخاصةً المحول. وقد تم تقديمها بشكل شهير في الورقة البحثية الأساسية "الانتباه هو كل ما تحتاجه"، والتي أحدثت ثورة في مجال معالجة اللغات الطبيعية (NLP).

كيفية عمل الانتباه الذاتي

في جوهره، يعمل الانتباه الذاتي من خلال تعيين "درجة انتباه" لكل عنصر آخر في تسلسل الإدخال بالنسبة للعنصر الذي تتم معالجته حاليًا. يتم تحقيق ذلك من خلال إنشاء ثلاثة متجهات لكل عنصر مُدخل: استعلام (Q)، ومفتاح (K)، وقيمة (V).

  1. استعلام: يمثل العنصر الحالي الذي "يبحث عن" السياق.
  2. المفتاح: يمثل جميع العناصر في التسلسل التي يمكن مقارنة الاستعلام بها للعثور على المعلومات ذات الصلة.
  3. القيمة: يمثل المحتوى الفعلي لكل عنصر، والذي سيتم تجميعه بناءً على درجات الانتباه.

بالنسبة لاستعلام معين، تحسب الآلية تشابهه مع جميع المفاتيح في التسلسل. ثم يتم تحويل درجات التشابه هذه إلى أوزان (غالبًا باستخدام دالة softmax )، والتي تحدد مقدار التركيز الذي يجب أن يوضع على قيمة كل عنصر. الناتج النهائي للاستعلام هو مجموع مرجح لجميع القيم، مما يؤدي إلى إنشاء تمثيل جديد لهذا العنصر غني بالسياق من التسلسل بأكمله. هذه العملية هي جزء أساسي من كيفية عمل نماذج اللغة الكبيرة (LLMs). يمكن العثور على شرح مرئي ممتاز لعملية Q-K-V هذه في مصادر مثل مدونة جاي آلمار.

آلية الانتباه الذاتي مقابل آلية الانتباه الذاتي

الانتباه الذاتي هو نوع محدد من آليات الانتباه. والتمييز الرئيسي هو مصدر متجهات الاستعلام والمفتاح والقيمة.

  • انتباه ذاتي: يتم اشتقاق جميع المتجهات الثلاثة (س، ك، ف) من نفس تسلسل المدخلات. وهذا يسمح للنموذج بتحليل العلاقات الداخلية داخل جملة أو صورة واحدة.
  • انتباه عام (أو انتباه متقاطع): قد يأتي متجه الاستعلام من تسلسل ما بينما يأتي متجها المفتاح والقيمة من تسلسل آخر. هذا أمر شائع في مهام الترجمة من تسلسل إلى تسلسل مثل الترجمة الآلية، حيث تولي وحدة فك التشفير (التي تقوم بتوليد النص المترجم) اهتمامًا لتمثيل المشفر للنص المصدر.

تطبيقات في الذكاء الاصطناعي والرؤية الحاسوبية

بينما شاع لأول مرة في مجال البرمجة اللغوية العصبية لمهام مثل تلخيص النصوص والترجمة، فقد أثبت الانتباه الذاتي فعاليته العالية في مجال الرؤية الحاسوبية أيضًا.

  • معالجة اللغة الطبيعية: في جملة مثل "التقط الروبوت مفتاح الربط لأنه ثقيل"، يسمح الانتباه الذاتي للنموذج بربط كلمة "ذلك" بـ "مفتاح الربط" بشكل صحيح بدلاً من "الروبوت". هذا الفهم أساسي لنماذج مثل BERT و GPT-4.
  • الرؤية الحاسوبية: يطبّق نموذج محول الرؤية (ViT) الانتباه الذاتي على بقع من الصورة، مما يمكّنه من تعلم العلاقات بين أجزاء مختلفة من المشهد المرئي لمهام مثل تصنيف الصور. تتضمن بعض نماذج اكتشاف الأجسام أيضًا وحدات قائمة على الانتباه لتحسين خرائط السمات وتحسين الدقة. في حين أن بعض النماذج مثل YOLO12 تستخدم الانتباه، إلا أننا نوصي باستخدام نموذج Ultralytics YOLO11 القوي والفعال لمعظم حالات الاستخدام.

الاتجاهات المستقبلية

تستمر الأبحاث في تحسين آليات الانتباه الذاتي، بهدف زيادة الكفاءة الحسابية (على سبيل المثال، طرق مثل FlashAttention ومتغيرات الانتباه المتناثرة) وقابلية التطبيق على نطاق أوسع. ومع ازدياد تعقيد نماذج الذكاء الاصطناعي، من المتوقع أن يظل الانتباه الذاتي تقنية أساسية تقود التقدم في مجالات من تطبيقات الذكاء الاصطناعي المتخصصة مثل الروبوتات إلى السعي وراء الذكاء الاصطناعي العام (AGI). تعمل أدوات ومنصات مثل Ultralytics HUB على تسهيل تدريب ونشر النماذج التي تتضمن هذه التقنيات المتقدمة، والتي غالباً ما تكون متاحة عبر مستودعات مثل Hugging Face وتم تطويرها باستخدام أطر عمل مثل PyTorch و TensorFlow.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة