اكتشف قوة محولات الرؤية (ViTs) في الرؤية الحاسوبية. تعلّم كيف تتفوق في أدائها على شبكات CNN من خلال التقاط سياق الصورة العالمي.
يمثل برنامج Vision Transformer (ViT) نقلة كبيرة في مجال الرؤية الحاسوبية، حيث يقوم بتكييف بنية برنامج Transformer، الذي تم تطويره في الأصل لمعالجة اللغات الطبيعية، مع مهام التعرف على الصور. وخلافاً للشبكات العصبية التلافيفية التقليدية (CNNs) التي تعالج الصور طبقة تلو الأخرى، يقوم محول الرؤية البصرية بتقسيم الصورة إلى رقع أصغر حجماً ويعامل هذه الرقع على أنها رموز في تسلسل، مثل الكلمات في الجملة. تسمح هذه المقاربة الجديدة لشبكات VTs بالاستفادة من آلية الانتباه الذاتي القوية للمحول لالتقاط العلاقات العامة داخل الصورة، مما يؤدي إلى تحقيق أداء متطور في مختلف مهام الرؤية الحاسوبية.
يقوم محول الرؤية في جوهره بمعالجة الصور عن طريق تقسيمها أولاً إلى شبكة من الرقع ذات الحجم الثابت. ثم يتم بعد ذلك تسطيح هذه الرقع وتحويلها خطيًا إلى تضمينات، وهي في الأساس تمثيلات متجهة. تتم إضافة التضمينات الموضعية إلى تضمينات الرقع هذه للاحتفاظ بالمعلومات المكانية الضرورية لفهم بنية الصورة. ثم يتم إدخال هذا التسلسل من الرقع المضمنة في مشفر محول قياسي.
يتكون مشفر المحول من طبقات متعددة من شبكات الانتباه الذاتي وشبكات التغذية الأمامية متعددة الرؤوس. المكون الرئيسي هنا هو آلية الانتباه الذاتي، والتي تسمح للنموذج بتقييم أهمية كل رقعة بالنسبة لجميع الرقع الأخرى عند معالجة الصورة. يمكّن هذا النموذج من فهم السياق العالمي للصورة، والتقاط التبعيات بعيدة المدى التي قد تغفلها شبكات الشبكات الافتراضية الافتراضية التي تركز على السمات المحلية. هذا الفهم للسياق العالمي هو نقطة القوة الأساسية في محولات الرؤية. للتعمق أكثر في المبادئ الأساسية، توفر موارد مثل "المحول المصور" لجاي ألامار "المحول المصور" تفسيرات مرئية ممتازة لبنية المحول.
اكتسبت محولات الرؤية مكانة بارزة بسرعة بسبب أدائها المثير للإعجاب وقابليتها للتوسع. فقدرتها على التقاط السياق العالمي وقدرتها على الاستفادة من مجموعات البيانات الكبيرة جعلتها ذات أهمية كبيرة في تطبيقات التعلم العميق الحديثة. تشمل التطبيقات الرئيسية لمحولات الرؤية الافتراضية ما يلي:
تشمل تطبيقات العالم الحقيقي مختلف الصناعات. ففي مجال الرعاية الصحية، تساعد التقنيات الافتراضية في تحليل الصور الطبية لتحسين التشخيص. وفي الزراعة، تعمل على تحسين مراقبة المحاصيل واكتشاف الأمراض. وعلاوةً على ذلك، فإن كفاءتها ودقتها تجعلها مناسبة للنشر على الأجهزة المتطورة، كما تم استكشافها في أدلة NVIDIA جيتسون وRaspberry Pi.
على الرغم من أن الشبكات المتشابكة الشبكية ذات المحولات البصرية (CNNs) لطالما كانت البنية السائدة في مجال الرؤية الحاسوبية، إلا أن محولات الرؤية تقدم نهجًا مختلفًا بشكل أساسي. تتفوق شبكات CNN في التقاط الأنماط المحلية من خلال الطبقات التلافيفية، مما يجعلها فعالة في المهام التي تكون فيها السمات المحلية حاسمة. ومع ذلك، فإنها قد تعاني أحياناً في التقاط التبعيات بعيدة المدى والسياق العالمي. من ناحية أخرى، تلتقط محولات الشبكات الافتراضية بطبيعتها السياق العالمي من خلال آليات الانتباه الذاتي الخاصة بها، مما يوفر ميزة في المهام التي تتطلب فهماً شاملاً للمشهد.
على الرغم من نقاط قوتها، تتطلب عادةً مجموعات بيانات أكبر بكثير للتدريب مقارنةً بمجموعات بيانات الشبكات الشبكية المتكاملة لتحقيق الأداء الأمثل. يمكن أن تكون الشبكات الشبكية المترابطة أكثر كفاءة من الناحية الحسابية لمجموعات البيانات الأصغر والمهام التي تركز على استخراج السمات المحلية. غالبًا ما يعتمد الاختيار بين محولات الرؤية الافتراضية وشبكات CNN على التطبيق المحدد وحجم مجموعة البيانات والموارد الحاسوبية المتاحة. تمثل محولات الرؤية تطورًا كبيرًا في مجال الرؤية الحاسوبية، مما يدل على قوة آليات الانتباه ويمهد الطريق للتطورات المستقبلية في هذا المجال.