مسرد المصطلحات

المحول

اكتشف كيف تُحدِث بنيات Transformer ثورة في الذكاء الاصطناعي، وتحقق اختراقات في مجال البرمجة اللغوية العصبية والرؤية الحاسوبية ومهام التعلّم الآلي المتقدمة.

المحول هو بنية ثورية للشبكات العصبية التي أصبحت حجر الزاوية في الذكاء الاصطناعي الحديث، خاصة في معالجة اللغات الطبيعية، ومؤخراً في الرؤية الحاسوبية. تم تقديمها من قِبل باحثي Google في ورقة بحثية بعنوان "الانتباه هو كل ما تحتاجه" عام 2017، ويتمثل ابتكارها الرئيسي في آلية الانتباه الذاتي، والتي تسمح للنموذج بتقييم أهمية الكلمات أو الأجزاء المختلفة من تسلسل المدخلات. وهذا يمكّنه من التقاط التبعيات بعيدة المدى والعلاقات السياقية بشكل أكثر فعالية من البنى السابقة. كما يسمح التصميم أيضًا بالتوازي الهائل، مما يجعل من الممكن تدريب نماذج أكبر بكثير على مجموعات بيانات ضخمة، مما يؤدي إلى ظهور نماذج اللغات الكبيرة (LLMs).

كيف تعمل المحولات

على عكس النماذج المتسلسلة مثل الشبكات العصبية المتكررة (RNNs)، تعالج المحولات تسلسلات كاملة من البيانات في وقت واحد. تتمثل الفكرة الأساسية في التعامل مع جميع العناصر بالتوازي، مما يسرّع التدريب بشكل كبير على الأجهزة الحديثة مثل وحدات معالجة الرسومات.

لفهم ترتيب التسلسل دون تكرار، تستخدم المحولات تقنية تسمى الترميز الموضعي، والتي تضيف معلومات حول موضع كل عنصر (على سبيل المثال، كلمة في جملة) إلى التضمين الخاص به. تقوم طبقات الانتباه الذاتي بعد ذلك بمعالجة هذه التضمينات، مما يسمح لكل عنصر "بالنظر" إلى كل عنصر آخر في التسلسل وتحديد العناصر الأكثر صلة بفهم معناه. هذا الوعي بالسياق العالمي هو ميزة رئيسية للمهام المعقدة. توفر أطر عمل مثل PyTorch و TensorFlow دعمًا واسعًا لبناء نماذج قائمة على المحولات.

تطبيقات المحولات

يمتد تأثير المحولات إلى العديد من المجالات، مما يؤدي إلى تحقيق تقدم في كل من مهام اللغة والرؤية.

ترجمة اللغات وتوليدها: تستخدم خدمات مثل Google Translate نماذج قائمة على المحولات للترجمة الآلية عالية الجودة. يمكن للنموذج أن يأخذ بعين الاعتبار الجملة المصدر بأكملها لإنتاج ترجمة أكثر طلاقة ودقة. وبالمثل، تتفوق نماذج مثل GPT-4 في توليد النصوص من خلال فهم السياق لإنشاء فقرات متماسكة أو كتابة مقالات أو تشغيل روبوتات الدردشة الآلية المتقدمة.
الرؤية الحاسوبية: يقوم محول الرؤية (ViT) بتكييف البنية للمهام القائمة على الصور. يعامل الصورة كسلسلة من البقع ويستخدم الانتباه الذاتي لنمذجة العلاقات بينها. يتم استخدام هذا النهج في نماذج مثل RT-DETR لاكتشاف الأجسام، حيث يمكن أن يساعد فهم السياق العام للمشهد في تحديد الأجسام بدقة أكبر، خاصةً في البيئات المشوشة. يمكنك الاطلاع على مقارنة بين RT-DETR و YOLOv8 لفهم الاختلافات الهيكلية بينهما.

المحول مقابل البنى الأخرى

من المفيد تمييز المحولات عن غيرها من بنيات الشبكات العصبية الشائعة الأخرى:

المحولات مقابل شبكات RNNs: تعالج شبكات RNNs البيانات بالتتابع، مما يجعلها بطيئة بطبيعتها وعرضة لمشكلة التدرج المتلاشي، مما يجعلها تنسى المعلومات السابقة في التسلسلات الطويلة. تتغلب المحولات على هذا الأمر من خلال المعالجة المتوازية والانتباه الذاتي، مما يجعلها تلتقط التبعيات بعيدة المدى بشكل أكثر فعالية.
المحولات مقابل الشبكات العصبية التلافيفية تتسم الشبكات العصبية التلافيفية (CNNs) بكفاءة عالية في مهام الرؤية، باستخدام مرشحات تلافيفية لتحديد الأنماط المحلية في البيانات الشبيهة بالشبكة مثل وحدات البكسل. وهي الأساس لنماذج مثل عائلة Ultralytics YOLO. وعلى النقيض من ذلك، تلتقط المحولات العلاقات العالمية ولكنها غالبًا ما تتطلب المزيد من البيانات وموارد الحوسبة. تهدف النماذج الهجينة، التي تجمع بين العمود الفقري لشبكة CNN وطبقات المحولات، إلى الحصول على أفضل ما في العالمين.

متغيرات المحولات الفعالة

تنمو التكلفة الحسابية للمُحوِّل الذاتي الكامل للمُحوِّل الأصلي بشكل تربيعي مع طول التسلسل، مما يجعل الأمر صعبًا بالنسبة للتسلسلات الطويلة جدًا. وقد أدى ذلك إلى تطوير متغيرات أكثر كفاءة.

طويل الأمد: يستخدم آلية انتباه النافذة المنزلقة مع انتباه عالمي على رموز محددة لتقليل التعقيد الحسابي.
المصلح: يوظف تقنيات مثل التجزئة الحساسة للمكان لتقريب الانتباه الكامل، مما يجعلها أكثر كفاءة في الذاكرة.
Transformer-XL: يقدم آلية التكرار التي تسمح للنموذج بتعلم التبعيات التي تتجاوز الطول الثابت، وهو أمر مفيد بشكل خاص لنمذجة اللغة الانحدارية التلقائية.

تستمر هذه التطورات في توسيع إمكانية تطبيق المحولات على مشاكل جديدة. تسهل الأدوات والمنصات مثل Hugging Face و Ultralytics HUB على المطورين الوصول إلى هذه النماذج القوية ونشرها.

المحول

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ مع Ultralytics YOLO

تدريب نماذج YOLO ببساطة باستخدام Ultralytics HUB

كيف تعمل المحولات

تطبيقات المحولات

المحول مقابل البنى الأخرى

متغيرات المحولات الفعالة

اقرأ المزيد في هذه الفئة

Google Genie 3 من Google Genie 3 يجعل عالمك ثلاثي الأبعاد ينبض بالحياة بفضل الذكاء الاصطناعي

استكشاف نظام OpenAI's GPT-5: نظام موحد ذكي

ما هي العتبة في معالجة الصور؟

انضم إلى مجتمع Ultralytics