مسرد المصطلحات

محول الرؤية (ViT)

اكتشف قوة محولات الرؤية (ViTs) في الرؤية الحاسوبية. تعلّم كيف تتفوق في أدائها على شبكات CNN من خلال التقاط سياق الصورة العالمي.

إن محول الرؤية (ViT) هو نوع من بنية الشبكات العصبية المقتبسة من نماذج المحولات المصممة أصلاً لمعالجة اللغات الطبيعية (NLP). تم تقديمها من قبل باحثي Google في ورقة بحثية بعنوان "صورة تساوي 16 × 16 كلمة"، تطبق نماذج المحولات البصرية آلية الانتباه الذاتي للمحول مباشرةً على تسلسلات من رقع الصور، وتعامل معالجة الصور كمهمة نمذجة تسلسلية. يمثل هذا النهج تحولًا كبيرًا عن هيمنة الشبكات العصبية التلافيفية (CNNs) في مجال الرؤية الحاسوبية.

كيفية عمل محولات الرؤية

وبدلاً من معالجة الصور بكسل تلو الآخر باستخدام مرشحات التلافيف، تقسم تقنية معالجة الصور الافتراضية أولاً صورة المدخلات إلى رقع ثابتة الحجم وغير متداخلة. ثم يتم بعد ذلك تسطيح هذه الرقع إلى متجهات، ثم يتم تضمينها خطيًا، ثم يتم تعزيزها بتضمينات موضعية للاحتفاظ بالمعلومات المكانية (على غرار كيفية ترميز مواضع الكلمات في معالجة اللغات الطبيعية). ثم يتم تغذية هذه السلسلة من المتجهات في مشفر محول قياسي، والذي يستخدم طبقات من الانتباه الذاتي متعدد الرؤوس لتقييم أهمية الرقع المختلفة بالنسبة لبعضها البعض. عادةً ما يتم تمرير الناتج النهائي من مشفر المحولات إلى رأس تصنيف بسيط (مثل المُدرِك متعدد الطبقات) لمهام مثل تصنيف الصور. تسمح هذه البنية لـ ViTs بنمذجة التبعيات بعيدة المدى والسياق العالمي داخل الصورة بشكل فعال.

الملاءمة والتطبيقات

أصبحت محولات الرؤية ذات أهمية كبيرة في التعلم العميق الحديث نظرًا لقابليتها للتوسع وأدائها المثير للإعجاب، خاصةً مع التدريب المسبق واسع النطاق على مجموعات بيانات مثل ImageNet أو حتى مجموعات بيانات خاصة أكبر. إن قدرتها على نمذجة السياق العالمي تجعلها مناسبة لمجموعة واسعة من مهام السيرة الذاتية التي تتجاوز التصنيف الأساسي، بما في ذلك:

اكتشاف الأجسام: نماذج مثل RT-DETR تدمج مكونات المحولات للكشف عالي الدقة.
تجزئة الصور: بما في ذلك تجزئة المثيل والتجزئة الدلالية، حيث يكون فهم المشهد الكلي أمرًا بالغ الأهمية. تستفيد نماذج مثل نموذج تجزئة أي شيء (SAM) من بنيات المحولات.
تحليل الصور الطبية: تتفوق التقنيات الافتراضية في تحليل صور الأشعة (التصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب) لمهام مثل الكشف عن الأورام أو تحديد الأنماط الدقيقة التي تشير إلى المرض، مستفيدةً من قدرتها على السياق العالمي. وهذا مجال رئيسي في الذكاء الاصطناعي في مجال الرعاية الصحية. تساعد مجموعات البيانات العامة مثل أرشيف تصوير السرطان (TCIA) في دفع عجلة البحث في هذا المجال.
المركبات ذاتية القيادة: لفهم المشهد المعقد، والتنبؤ بمسارات الأجسام، واكتشاف الأجسام الصغيرة أو المحجوبة، وهي أمور حيوية للملاحة الآمنة في تطبيقات الذكاء الاصطناعي في السيارات. تُستخدم مجموعات البيانات مثل مجموعة بيانات Waymo Open Dataset لتدريب مثل هذه النماذج.
تحليل صور الأقمار الصناعية: يستفيد تحليل صور الأقمار الصناعية الضخمة من المنظور العالمي الذي توفره صور الأقمار الصناعية.

يتم دمج VVTs بشكل متزايد في منصات مثل Ultralytics HUB ومكتبات مثل Hugging Face Transformers، مما يجعلها متاحة للبحث والنشر باستخدام أطر مثل PyTorch و TensorFlow. يمكن أيضًا تحسينها لنشر الذكاء الاصطناعي على الحافة على أجهزة مثل NVIDIA Jetson أو Edge TPU من Google باستخدام أدوات مثل TensorRT.

في تي ضد سي إن إن إن

في حين أن كلاً من نماذج الرؤية الافتراضية ونماذج سي إن إن إن هي بنيات أساسية في الرؤية الحاسوبية (انظر تاريخ نماذج الرؤية)، إلا أنها تختلف بشكل كبير في نهجها:

التحيز الاستقرائي: تمتلك شبكات CNN تحيزات استقرائية قوية تجاه التحيزات الاستقرائية تجاه التباين المحلي وتساوي الترجمة من خلال طبقات التلافيف والتجميع. بينما تمتلك الشبكات الافتراضية الافتراضية تحيزات استقرائية أضعف، حيث تعتمد بشكل أكبر على تعلم الأنماط من البيانات، خاصةً العلاقات بين الأجزاء البعيدة من الصورة من خلال الانتباه الذاتي.
الاعتماد على البيانات: تتطلب الشبكات الافتراضية الافتراضية عمومًا كميات كبيرة من بيانات التدريب (أو تدريبًا مسبقًا مكثفًا) لتتفوق على أحدث شبكات الشبكات الافتراضية المترابطة. مع مجموعات البيانات الأصغر، غالبًا ما تعمم CNNs بشكل أفضل بسبب تحيزاتها المدمجة.
التكلفة الحسابية: يمكن أن يكون تدريب النماذج الافتراضية الافتراضية مكثفًا من الناحية الحسابية، وغالبًا ما يتطلب موارد كبيرة من GPU . ومع ذلك، يمكن أن تكون سرعة الاستدلال تنافسية، خاصةً بالنسبة للنماذج الأكبر حجماً. فنماذجRT-DETR على سبيل المثال، تقدم أداءً في الوقت الحقيقي ولكنها قد تحتاج إلى موارد أعلى من نماذج YOLO المماثلة القائمة على شبكة CNN.
السياق العالمي مقابل السياق المحلي: تبني CNNs ميزات هرمية من الأنماط المحلية. يمكن لـ VTs نمذجة التفاعلات العالمية بين البقع من الطبقات الأولى، مما قد يؤدي إلى التقاط سياق أوسع بشكل أكثر فعالية لمهام معينة.

وغالبًا ما يعتمد الاختيار بين تقنية ViT وCNN على المهمة المحددة ومجموعات البيانات المتاحة والموارد الحاسوبية. عادةً ما تتفوق أدوات VTs بشكل عام عندما تتوفر كميات كبيرة من بيانات التدريب ويكون السياق العالمي أمرًا بالغ الأهمية. بينما تتفوق CNNs، مثل تلك المستخدمة كعمود فقري في Ultralytics YOLO (على سبيل المثال YOLOv8، YOLOv10, YOLO11)، لا تزال فعالة وكفؤة للغاية، خاصةً للكشف عن الأجسام في الوقت الحقيقي على الأجهزة المقيدة. كما تمثل البنى الهجينة التي تجمع بين الميزات التلافيفية وطبقات المحولات (كما هو الحال في RT-DETR) اتجاهًا واعدًا أيضًا، في محاولة للاستفادة من نقاط القوة في كلا النهجين. يعد الضبط الدقيق للنماذج المدربة مسبقاً، سواءً كانت النماذج القائمة على تقنية ViT أو CNN، ممارسة شائعة باستخدام تقنيات مثل التعلم التحويلي.

محول الرؤية (ViT)

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيفية عمل محولات الرؤية

الملاءمة والتطبيقات

في تي ضد سي إن إن إن

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

محول الرؤية (ViT)

تدريب YOLO النماذجببساطة مع Ultralytics HUB

حل الترخيص المرن للمؤسسات لتعزيز ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

تدريب النماذج YOLO ببساطة باستخدام Ultralytics HUB

كيفية عمل محولات الرؤية

الملاءمة والتطبيقات

في تي ضد سي إن إن إن

قراءة المزيد من المدونات

انضم إلى مجتمع Ultralytics

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB