اكتشف كيف تُحدِث محولات الرؤية (ViT) ثورة في الرؤية الحاسوبية من خلال الانتباه الذاتي، وتتفوق في مهام التصنيف والكشف والتجزئة.
أحدثت محولات الرؤية (ViT) ثورة في مجال الرؤية الحاسوبية من خلال إدخال البنى القائمة على المحولات المستخدمة تقليديًا في معالجة اللغات الطبيعية (NLP) في مهام الرؤية. على عكس الشبكات العصبية التلافيفية (CNNs)، التي تعتمد على عمليات التلافيف، تستخدم محولات الرؤية الافتراضية آليات الانتباه الذاتي لتحليل بيانات الصور ومعالجتها، مما يوفر نهجًا أكثر مرونة وقابلية للتطوير في مواجهة تحديات الرؤية المختلفة.
تقسّم نماذج المحولات الافتراضية صورة المدخلات إلى رقع أصغر ذات حجم ثابت، وتسطّحها وتتعامل مع كل رقعة على أنها "رمز مميز"، على غرار الكلمات في معالجة اللغات الطبيعية. ثم يتم تضمين هذه الرموز في متجهات عالية الأبعاد وتمريرها من خلال طبقات متعددة من مشفرات المحولات، حيث تتيح آليات الانتباه الذاتي للنموذج التركيز على الأجزاء ذات الصلة من الصورة. تسمح هذه البنية لـ ViTs بالتقاط التبعيات المحلية والعالمية بفعالية.
تعتمد محولات الصور الافتراضية على الترميزات الموضعية للاحتفاظ بالمعلومات المكانية، وهو جانب مهم من بيانات الصور تفتقر إليه المحولات التقليدية. من خلال تعلم العلاقات بين الرقع، يمكن أن تحقق محولات VTs أداءً فائقًا في مهام مثل تصنيف الصور واكتشاف الأجسام وتجزئتها.
تعرف على المزيد حول كيفية عمل المحولات في مدخل مسرد مصطلحات المحولات.
تتفوق برامج تحويل الرؤية الافتراضية في مهام تصنيف الصور من خلال الاستفادة من قدرتها على التقاط ميزات الصورة العالمية. وقد حققت أدوات VTs المدربة مسبقًا مثل محول الرؤية Google'Vision Transformer دقة فائقة في معايير مثل ImageNet. على سبيل المثال، تُطبّق تقنيات المحولات البصرية الافتراضية في مجال الرعاية الصحية لتصنيف الصور الطبية، مما يساعد في تشخيص الأمراض.
استكشف مهام تصنيف الصور باستخدام نماذجUltralytics YOLO .
يتزايد استخدام شبكات المحولات الافتراضية الافتراضية في خطوط أنابيب الكشف عن الأجسام، لتحل محل الشبكات الأساسية التقليدية القائمة على التلافيف. تُظهر نماذج مثل DETR (DEtection TRansformer) فعالية VTs في اكتشاف الأجسام وتحديد مواقعها دون الاعتماد على شبكات اقتراح المناطق.
اكتشف حلول اكتشاف الأجسام باستخدام Ultralytics YOLO.
من خلال الاستفادة من الانتباه الذاتي، توفر تقنية VTs حلولاً دقيقة وفعالة للتجزئة الدلالية وتجزئة النماذج. تشمل التطبيقات القيادة الذاتية، حيث يعد التجزئة الدقيقة على مستوى البكسل أمرًا بالغ الأهمية لاكتشاف علامات الطريق والمشاة والمركبات.
تعرف على المزيد حول مهام التجزئة في تجزئة الصور.
الرعاية الصحية: تُستخدَم أجهزة VTs في التصوير الطبي لمهام مثل الكشف عن الأورام وتجزئة الأعضاء. وتساعد قدرتها على تحليل الصور عالية الدقة في التشخيص المبكر وتخطيط العلاج. على سبيل المثال، يمكن تعزيز قدرات التصوير الطبيUltralytics YOLO11 من خلال استخدام تقنيات VT لتحسين الدقة.
المركبات ذاتية القيادة: تعمل أنظمة الرؤية الافتراضية على تشغيل أنظمة الرؤية في السيارات ذاتية القيادة، مما يتيح الكشف عن العوائق وعلامات الحارات وإشارات المرور في الوقت الفعلي. ويعزز وعيها بالسياق العالمي من السلامة واتخاذ القرارات.
استكشف المزيد من تطبيقات الذكاء الاصطناعي في القيادة الذاتية مع حلول الذكاء الاصطناعي للرؤية.
على الرغم من المزايا الكبيرة التي توفرها التقنيات الافتراضية الافتراضية، إلا أنها تنطوي على تحديات:
ولمعالجة هذه المشكلات، تم تقديم أساليب مثل النماذج الهجينة التي تجمع بين نماذج في تكنولوجيات الشبكات الافتراضية وتقنيات مثل دمج الرقع لجعل نماذج في تكنولوجيات الشبكات الافتراضية أكثر كفاءة.
تواصل التقنيات الافتراضية الافتراضية دفع حدود الرؤية الحاسوبية، حيث تقدم حلولاً مبتكرة في مختلف الصناعات. وبفضل أدوات مثل Ultralytics HUB، يمكن للمطورين استكشاف إمكانات تقنيات الذكاء الاصطناعي الافتراضي في تطبيقات العالم الحقيقي، مما يسهل نشر حلول الذكاء الاصطناعي وتوسيع نطاقها.