Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

محول الرؤية (ViT)

اكتشف قوة محولات الرؤية (ViT). تعرف على كيفية إحداث الاهتمام الذاتي وترميز الباتش ثورة في الرؤية الحاسوبية بما يتجاوز شبكات CNNs مع Ultralytics.

Vision Transformer (ViT) هي بنية تعلم عميق تتكيف مع آليات الانتباه الذاتي المصممة أصلاً لمعالجة اللغة الطبيعية (NLP) لحل المهام البصرية. على عكس الشبكة العصبية التلافيفية (CNN) التقليدية، التي تعالج الصور من خلال هرمية من شبكات البكسل المحلية، تعامل ViT الصورة على أنها سلسلة من البقع المنفصلة. وقد اشتهرت هذه الطريقة بفضل البحث العلمي الرائد "صورة تساوي 16x16 كلمة"، الذي أظهر أن بنى المحولات البحتة يمكنها تحقيق أداء متطور في الرؤية الحاسوبية (CV) دون الاعتماد على طبقات التلافيف. من خلال الاستفادة من الانتباه الشامل، يمكن لـ ViTs التقاط التبعيات بعيدة المدى عبر الصورة بأكملها من الطبقة الأولى.

كيف تعمل Vision Transformers

الابتكار الأساسي في ViT هو الطريقة التي ينظم بها البيانات المدخلة. لجعل الصورة متوافقة مع محول قياسي ، يقسم النموذج المعلومات المرئية إلى سلسلة من المتجهات، مقلداً الطريقة التي يعالج بها نموذج اللغة جملة من الكلمات.

  1. تجزئة التصحيح: يتم تقسيم الصورة المدخلة إلى شبكة من المربعات ذات الحجم الثابت، عادةً 16x16 بكسل. يتم تسطيح كل مربع إلى متجه، ليصبح فعليًا رمزًا مرئيًا .
  2. الإسقاط الخطي: يتم تمرير هذه البقع المسطحة عبر طبقة خطية قابلة للتدريب لإنشاء تضمينات كثيفة. تعمل هذه الخطوة على تعيين قيم البكسل الخام في مساحة عالية الأبعاد يمكن للنموذج معالجتها.
  3. الترميز الموضعي: نظرًا لأن البنية تعالج التسلسلات بشكل متوازٍ وتفتقر إلى فهم متأصل للترتيب أو المساحة، يتم إضافة ترميزات موضعية قابلة للتعلم إلى تضمينات الرقع. وهذا يسمح للنموذج بالاحتفاظ بالمعلومات المكانية حول مكان كل رقعة في الصورة الأصلية.
  4. آلية الانتباه الذاتي: تدخل التسلسل إلى مشفر Transformer، حيث يسمح الانتباه الذاتي لكل رقعة بالتفاعل مع كل رقعة أخرى في وقت واحد. وهذا يمكّن الشبكة من تعلم السياق العام، وفهم كيفية ارتباط بكسل في الزاوية العلوية اليسرى بآخر في الزاوية السفلية اليمنى.
  5. رئيس التصنيف: بالنسبة لمهام مثل تصنيف الصور، غالبًا ما يتم إضافة "رمز تصنيف" خاص إلى التسلسل. تعمل الحالة النهائية لهذا الرمز كتمثيل إجمالي للصورة، والتي يتم إدخالها بعد ذلك في مصنف، مثل البرتكترون متعدد الطبقات (MLP).

محولات الرؤية مقابل شبكات CNN

بينما تهدف كلتا البنيتين إلى فهم البيانات المرئية، إلا أنهما تختلفان بشكل كبير في فلسفتهما التشغيلية. تمتلك شبكات CNN "تحيزًا استقرائيًا" قويًا يُعرف باسم ثبات الترجمة، مما يعني أنها تفترض بطبيعتها أن السمات المحلية (مثل الحواف والأنسجة) مهمة بغض النظر عن موقعها. وهذا يجعل شبكات CNN عالية الكفاءة والفعالية في التعامل مع مجموعات البيانات الصغيرة.

على العكس من ذلك، فإن محولات الرؤية (Vision Transformers) لديها تحيز أقل تجاه الصور. يجب أن تتعلم العلاقات المكانية من الصفر باستخدام كميات هائلة من بيانات التدريب، مثل JFT-300M أو ImageNet . في حين أن هذا يجعل التدريب أكثر كثافة من الناحية الحسابية، إلا أنه يسمح لـ ViTs بالتوسع بشكل جيد للغاية؛ مع وجود بيانات كافية وقوة حسابية ، يمكنها أن تتفوق على CNNs من خلال التقاط الهياكل العالمية المعقدة التي قد تفوت التلافيف المحلية.

تطبيقات واقعية

إن القدرة على فهم السياق العالمي تجعل ViTs مفيدة بشكل خاص في البيئات المعقدة وذات المخاطر العالية.

  • تحليل الصور الطبية: في الرعاية الصحية AI، يتم استخدام ViTs لتحليل المسح الضوئي عالي الدقة مثل التصوير بالرنين المغناطيسي أو شرائح الأنسجة المرضية. على سبيل المثال، في الكشف عن الأورام، يمكن لـ ViT ربط الشذوذات النسيجية الدقيقة في الأنسجة بالتغيرات الهيكلية الأوسع نطاقًا عبر الشريحة، مما يحدد الأنماط الخبيثة التي قد تغفلها المعالجة المحلية.
  • الصور الساتلية والاستشعار عن بعد: تتفوق شبكات ViT في تحليل الصور الساتلية حيث تمتد العلاقات بين الكائنات على مسافات كبيرة. على سبيل المثال، ربط موقع إزالة الغابات بطريق قطع الأشجار البعيد يتطلب فهم "الصورة الكبيرة" للمناظر الطبيعية، وهي مهمة تتفوق فيها شبكات ViT ذات الاهتمام العالمي على المجال الاستقبالي المحدود لشبكات CNN القياسية.

استخدام المحولات مع Ultralytics

إن ultralytics تدعم المكتبة البنى القائمة على المحولات، وأبرزها RT-DETR محول الكشف في الوقت الحقيقي). في حين أن الرائد يولو26 غالبًا ما يُفضل لكونه يوفر توازنًا بين السرعة والدقة على الأجهزة الطرفية، RT-DETR بديلاً قويًا للسيناريوهات التي تعطي الأولوية للسياق العام.

ما يلي Python كيفية تحميل نموذج مستند إلى Transformer تم تدريبه مسبقًا وتشغيل الاستدلال:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

التوقعات المستقبلية

تتطور الأبحاث بسرعة لمعالجة التكلفة الحسابية العالية لـ ViTs. تقنيات مثل FlashAttention تجعل هذه النماذج أسرع و أكثر كفاءة في استخدام الذاكرة. علاوة على ذلك، أصبحت البنى الهجينة التي تجمع بين كفاءة CNNs واهتمام Transformers شائعة. بالنسبة للفرق التي تسعى إلى إدارة سير العمل المتقدم هذا، توفر Ultralytics بيئة موحدة لتعليق البيانات، وتدريب النماذج المعقدة عبر السحابة، ونشرها في نقاط نهاية متنوعة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن