اكتشف كيف تُحدِث المحولات ثورة في البرمجة اللغوية العصبية والسيرة الذاتية من خلال الانتباه الذاتي والمعالجة المتوازية والتطبيقات الواقعية مثل YOLO وViT.
المحول هو نموذج هندسة نموذج التعلم العميق الذي قدمه فاسواني وآخرون في عام 2017 في الورقة البحثية الأساسية "الانتباه هو كل ما تحتاجه". وقد أحدثت ثورة في مجال معالجة اللغات الطبيعية (NLP) ويجري تطبيقها بشكل متزايد على مهام الرؤية الحاسوبية (CV). وخلافاً للنماذج السابقة التي اعتمدت على الشبكات العصبية المتكررة (RNNs) أو الشبكات العصبية التلافيفية (CNNs)، تعتمد المحولات فقط على آلية الانتباه لرسم التبعيات العالمية بين المدخلات والمخرجات.
تعتمد بنية المحول على بنية مشفر وفك تشفير. تعالج وحدة التشفير تسلسل المدخلات وتولد تمثيلاً سياقيًا، بينما تستخدم وحدة فك التشفير هذا التمثيل لإنتاج تسلسل المخرجات. الابتكار الرئيسي هو آلية الانتباه الذاتي، والتي تسمح للنموذج بتقييم أهمية كل جزء من تسلسل المدخلات فيما يتعلق بجميع الأجزاء الأخرى. تُمكّن هذه الآلية النموذج من التقاط التبعيات بعيدة المدى بفعالية أكبر من شبكات RNNs.
تعالج المحولات بيانات المدخلات بالتوازي، على عكس الشبكات الشبكية العصبية الشبكية RNNs التي تعالج البيانات بالتتابع. أصبحت هذه المعالجة المتوازية ممكنة بفضل آلية الانتباه الذاتي، والتي تحسب العلاقات بين جميع الكلمات في الجملة في وقت واحد. يشتمل النموذج أيضًا على ترميزات موضعية للاحتفاظ بالمعلومات حول ترتيب الكلمات في تسلسل الإدخال. تتكون وحدة التشفير وفك التشفير من طبقات متعددة، تحتوي كل منها على شبكات عصبية ذاتية الانتباه وشبكات عصبية ذاتية التغذية إلى الأمام. تسمح هذه البنية متعددة الطبقات للنموذج بتعلم أنماط وتمثيلات معقدة من البيانات.
تقدم المحولات العديد من المزايا مقارنة بالبنى السابقة. قدرتها على معالجة البيانات بالتوازي تقلل بشكل كبير من وقت التدريب. تسمح لهم آلية الانتباه الذاتي بالتقاط التبعيات بعيدة المدى بشكل أكثر فعالية، مما يؤدي إلى تحسين الأداء في المهام التي تتطلب فهم السياق. علاوة على ذلك، فإن المحولات قابلة للتطوير بشكل كبير ويمكن تدريبها على مجموعات بيانات كبيرة، مما يجعلها مناسبة لمجموعة واسعة من التطبيقات. تدعم النماذج Ultralytics YOLO تدعم النماذج نموذج محول مصمم للكشف عن الكائنات.
وقد تم تطبيق المحولات بنجاح على العديد من مهام البرمجة اللغوية العصبية المختلفة، بما في ذلك الترجمة الآلية وتلخيص النصوص والإجابة على الأسئلة. على سبيل المثال، يستند كل من Google(تمثيلات التشفير ثنائي الاتجاه من المحولات) و OpenAI (المحول التوليدي المدرب مسبقًا) على بنية المحولات، وقد حققتا نتائج متقدمة في العديد من معايير البرمجة اللغوية العصبية. في مجال الرؤية الحاسوبية، أظهرت نماذج مثل محول الرؤية (ViT) أن المحولات يمكن أن تتفوق على المحولات في الأداء على شبكات التواصل الاجتماعي في مهام تصنيف الصور من خلال التعامل مع الصور كتسلسلات من الرقع.
بالمقارنة مع شبكات الشبكات الشبكية الشبكية العصبية، تتفوق المحولات في التقاط التبعيات بعيدة المدى ويمكن تدريبها بشكل أسرع بكثير بسبب قدرتها على المعالجة المتوازية. في حين أن شبكات الشبكات الشبكية المتكاملة فعالة في معالجة البيانات الشبيهة بالشبكة مثل الصور، فإن المحولات أكثر مرونة ويمكنها التعامل مع التسلسلات متغيرة الطول، مما يجعلها مناسبة لكل من مهام معالجة اللغات الطبيعية والسيرة الذاتية. وعلى عكس نماذج اللغات الكبيرة (LLMs)، التي تركز في المقام الأول على توليد النصوص وفهمها، فإن المحولات لها نطاق تطبيق أوسع، بما في ذلك مهام اللغة والرؤية.
تستمر بنية المحولات في التطور، حيث تهدف الأبحاث الجارية إلى تحسين كفاءتها وتوسيع نطاق تطبيقاتها. تهدف الابتكارات مثل الانتباه المتناثر والانتباه الخطي إلى تقليل التكلفة الحسابية للانتباه الذاتي، مما يجعل من الممكن تطبيق المحولات على تسلسلات أطول. كما يستكشف الباحثون أيضاً طرقاً للجمع بين نقاط قوة المحولات مع البنى الأخرى، مثل شبكات CNN، لإنشاء نماذج هجينة تتفوق في مختلف المهام. مع تقدم هذا المجال، من المتوقع أن تلعب المحولات دوراً متزايد الأهمية في تطوير الذكاء الاصطناعي والتعلم الآلي. يمكنك استكشاف المزيد حول هذه التطورات على مدونةUltralytics .