اكتشف كيف تُحدِث بنيات Transformer ثورة في الذكاء الاصطناعي، وتحقق اختراقات في مجال البرمجة اللغوية العصبية والرؤية الحاسوبية ومهام التعلّم الآلي المتقدمة.
المحول هو بنية ثورية للشبكات العصبية التي أصبحت حجر الزاوية في الذكاء الاصطناعي الحديث، خاصة في معالجة اللغات الطبيعية، ومؤخراً في الرؤية الحاسوبية. تم تقديمها من قِبل باحثي Google في ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" عام 2017، ويتمثل ابتكارها الرئيسي في آلية الانتباه الذاتي، والتي تسمح للنموذج بتقييم أهمية الكلمات أو الأجزاء المختلفة من تسلسل المدخلات. وهذا يمكّنه من التقاط التبعيات بعيدة المدى والعلاقات السياقية بشكل أكثر فعالية من البنى السابقة. كما يسمح التصميم أيضًا بالتوازي الهائل، مما يجعل من الممكن تدريب نماذج أكبر بكثير على مجموعات بيانات ضخمة، مما يؤدي إلى ظهور نماذج اللغات الكبيرة (LLMs).
على عكس النماذج المتسلسلة مثل الشبكات العصبية المتكررة (RNNs)، تعالج المحولات تسلسلات كاملة من البيانات في وقت واحد. تتمثل الفكرة الأساسية في التعامل مع جميع العناصر بالتوازي، مما يسرّع التدريب بشكل كبير على الأجهزة الحديثة مثل وحدات معالجة الرسومات.
لفهم ترتيب التسلسل دون تكرار، تستخدم المحولات تقنية تسمى الترميز الموضعي، والتي تضيف معلومات حول موضع كل عنصر (على سبيل المثال، كلمة في جملة) إلى التضمين الخاص به. تقوم طبقات الانتباه الذاتي بعد ذلك بمعالجة هذه التضمينات، مما يسمح لكل عنصر "بالنظر" إلى كل عنصر آخر في التسلسل وتحديد العناصر الأكثر صلة بفهم معناه. هذا الوعي بالسياق العالمي هو ميزة رئيسية للمهام المعقدة. توفر أطر عمل مثل PyTorch و TensorFlow دعمًا واسعًا لبناء نماذج قائمة على المحولات.
يمتد تأثير المحولات إلى العديد من المجالات، مما يؤدي إلى تحقيق تقدم في كل من مهام اللغة والرؤية.
من المفيد تمييز المحولات عن غيرها من بنيات الشبكات العصبية الشائعة الأخرى:
تنمو التكلفة الحسابية للمُحوِّل الذاتي الكامل للمُحوِّل الأصلي بشكل تربيعي مع طول التسلسل، مما يجعل الأمر صعبًا بالنسبة للتسلسلات الطويلة جدًا. وقد أدى ذلك إلى تطوير متغيرات أكثر كفاءة.
تستمر هذه التطورات في توسيع إمكانية تطبيق المحولات على مشاكل جديدة. تسهل الأدوات والمنصات مثل Hugging Face و Ultralytics HUB على المطورين الوصول إلى هذه النماذج القوية ونشرها.