اكتشف قوة محولات الرؤية (ViTs) في الرؤية الحاسوبية. تعلّم كيف تتفوق في أدائها على شبكات CNN من خلال التقاط سياق الصورة العالمي.
إن محول الرؤية (ViT) هو نوع من بنية الشبكات العصبية المقتبسة من نماذج المحولات المصممة أصلاً لمعالجة اللغات الطبيعية (NLP). تم تقديمها من قبل باحثي Google في ورقة بحثية بعنوان "صورة تساوي 16 × 16 كلمة"، تطبق نماذج المحولات البصرية آلية الانتباه الذاتي للمحول مباشرةً على تسلسلات من رقع الصور، وتعامل معالجة الصور كمهمة نمذجة تسلسلية. يمثل هذا النهج تحولًا كبيرًا عن هيمنة الشبكات العصبية التلافيفية (CNNs) في مجال الرؤية الحاسوبية.
وبدلاً من معالجة الصور بكسل تلو الآخر باستخدام مرشحات التلافيف، تقسم تقنية معالجة الصور الافتراضية أولاً صورة المدخلات إلى رقع ثابتة الحجم وغير متداخلة. ثم يتم بعد ذلك تسطيح هذه الرقع إلى متجهات، ثم يتم تضمينها خطيًا، ثم يتم تعزيزها بتضمينات موضعية للاحتفاظ بالمعلومات المكانية (على غرار كيفية ترميز مواضع الكلمات في معالجة اللغات الطبيعية). ثم يتم تغذية هذه السلسلة من المتجهات في مشفر محول قياسي، والذي يستخدم طبقات من الانتباه الذاتي متعدد الرؤوس لتقييم أهمية الرقع المختلفة بالنسبة لبعضها البعض. عادةً ما يتم تمرير الناتج النهائي من مشفر المحولات إلى رأس تصنيف بسيط (مثل المُدرِك متعدد الطبقات) لمهام مثل تصنيف الصور. تسمح هذه البنية لـ ViTs بنمذجة التبعيات بعيدة المدى والسياق العالمي داخل الصورة بشكل فعال.
أصبحت محولات الرؤية ذات أهمية كبيرة في التعلم العميق الحديث نظرًا لقابليتها للتوسع وأدائها المثير للإعجاب، خاصةً مع التدريب المسبق واسع النطاق على مجموعات بيانات مثل ImageNet أو حتى مجموعات بيانات خاصة أكبر. إن قدرتها على نمذجة السياق العالمي تجعلها مناسبة لمجموعة واسعة من مهام السيرة الذاتية التي تتجاوز التصنيف الأساسي، بما في ذلك:
يتم دمج VVTs بشكل متزايد في منصات مثل Ultralytics HUB ومكتبات مثل Hugging Face Transformers، مما يجعلها متاحة للبحث والنشر باستخدام أطر مثل PyTorch و TensorFlow. يمكن أيضًا تحسينها لنشر الذكاء الاصطناعي على الحافة على أجهزة مثل NVIDIA Jetson أو Edge TPU من Google باستخدام أدوات مثل TensorRT.
في حين أن كلاً من نماذج الرؤية الافتراضية ونماذج سي إن إن إن هي بنيات أساسية في الرؤية الحاسوبية (انظر تاريخ نماذج الرؤية)، إلا أنها تختلف بشكل كبير في نهجها:
وغالبًا ما يعتمد الاختيار بين تقنية ViT وCNN على المهمة المحددة ومجموعات البيانات المتاحة والموارد الحاسوبية. عادةً ما تتفوق أدوات VTs بشكل عام عندما تتوفر كميات كبيرة من بيانات التدريب ويكون السياق العالمي أمرًا بالغ الأهمية. بينما تتفوق CNNs، مثل تلك المستخدمة كعمود فقري في Ultralytics YOLO (على سبيل المثال YOLOv8، YOLOv10, YOLO11)، لا تزال فعالة وكفؤة للغاية، خاصةً للكشف عن الأجسام في الوقت الحقيقي على الأجهزة المقيدة. كما تمثل البنى الهجينة التي تجمع بين الميزات التلافيفية وطبقات المحولات (كما هو الحال في RT-DETR) اتجاهًا واعدًا أيضًا، في محاولة للاستفادة من نقاط القوة في كلا النهجين. يعد الضبط الدقيق للنماذج المدربة مسبقاً، سواءً كانت النماذج القائمة على تقنية ViT أو CNN، ممارسة شائعة باستخدام تقنيات مثل التعلم التحويلي.