الشيك الأخضر
تم نسخ الرابط إلى الحافظة

فهم نماذج لغة الرؤية وتطبيقاتها

تعرّف على نماذج اللغة البصرية وكيفية عملها وتطبيقاتها المختلفة في الذكاء الاصطناعي. اكتشف كيف تجمع هذه النماذج بين القدرات البصرية واللغوية.

في مقال سابق، استكشفنا كيف يمكن لـ GPT-4o فهم الصور ووصفها باستخدام الكلمات. ونرى أيضاً هذه الإمكانية في نماذج جديدة أخرى مثل Google Gemini و Claude 3. اليوم، نتعمق اليوم في هذا المفهوم لشرح كيفية عمل نماذج لغة الرؤية وكيف تجمع بين البيانات المرئية والنصية. 

يمكن استخدام هذه النماذج لأداء مجموعة من المهام المثيرة للإعجاب، مثل إنشاء تعليقات مفصلة للصور، والإجابة عن الأسئلة المتعلقة بالصور، وحتى إنشاء محتوى مرئي جديد بناءً على الأوصاف النصية. من خلال دمج المعلومات البصرية واللغوية بسلاسة، تعمل نماذج لغة الرؤية على تغيير طريقة تفاعلنا مع التكنولوجيا وفهمنا للعالم من حولنا.

كيف تعمل نماذج لغة الرؤية

قبل أن نلقي نظرة على المجالات التي يمكن فيها استخدام نماذج لغة الرؤية (VLMs)، دعنا نفهم ما هي وكيف تعمل. نماذج لغة الرؤية هي نماذج ذكاء اصطناعي متقدمة تجمع بين قدرات نماذج الرؤية ونماذج اللغة للتعامل مع الصور والنصوص. تلتقط هذه النماذج الصور مع أوصافها النصية وتتعلم الربط بين الاثنين. يلتقط جزء الرؤية من النموذج التفاصيل من الصور، بينما يفهم الجزء اللغوي النص. يتيح هذا العمل الجماعي للنماذج اللغوية المرئية فهم وتحليل كل من الصور والنصوص.

فيما يلي الإمكانيات الرئيسية لنماذج لغة الرؤية:

  • شرح الصور: إنشاء نص وصفي بناءً على محتوى الصور.
  • الإجابة عن الأسئلة المرئية (VQA): الإجابة عن الأسئلة المتعلقة بمحتوى الصورة.
  • نص-إلى-نصتوليد الصور: إنشاء الصور بناءً على أوصاف نصية.
  • استرجاع الصور والنصوص: العثور على الصور ذات الصلة لاستعلام نصي معين والعكس بالعكس.
  • إنشاء محتوى متعدد الوسائط: الجمع بين الصور والنصوص لإنشاء محتوى جديد.
  • فهم المشهد و اكتشاف الكائنات: تحديد وتصنيف الكائنات والتفاصيل داخل الصورة.
الشكل 1. مثال على إمكانيات نموذج لغة الرؤية.

بعد ذلك، دعونا نستكشف البنى الشائعة لإدارة التعلم الافتراضي الخفيف وتقنيات التعلم التي تستخدمها النماذج المعروفة مثل CLIP وSIMVLM وVisualGPT.

التعلّم المتباين

التعلم المتباين هو تقنية تساعد النماذج على التعلم من خلال مقارنة الاختلافات بين نقاط البيانات. فهو يحسب مدى تشابه أو اختلاف النماذج ويهدف إلى تقليل الخسارة المتباينة التي تقيس هذه الاختلافات. وهي مفيدة بشكل خاص في التعلّم شبه الخاضع للإشراف، حيث تقوم مجموعة صغيرة من الأمثلة المصنفة بتوجيه النموذج لتسمية البيانات الجديدة غير المرئية. على سبيل المثال، لفهم شكل القطة، يقوم النموذج بمقارنتها بصور قطط وصور كلاب مشابهة. من خلال تحديد ميزات مثل بنية الوجه وحجم الجسم والفراء، يمكن لتقنيات التعلّم التبايني التفريق بين القطة والكلب.

الشكل 2. كيف يعمل التعلّم التبايني

CLIP هو نموذج بصري لغوي يستخدم التعلم التبايني لمطابقة الأوصاف النصية مع الصور. وهو يعمل في ثلاث خطوات بسيطة. أولاً، يقوم بتدريب أجزاء النموذج التي تفهم كلاً من النصوص والصور. ثانياً، يقوم بتحويل الفئات في مجموعة البيانات إلى أوصاف نصية. ثالثًا، يحدد أفضل وصف مطابق لصورة معينة. وبفضل هذه الطريقة، يمكن لنموذج CLIP إجراء تنبؤات دقيقة حتى بالنسبة للمهام التي لم يتم تدريبه عليها تحديدًا.

البادئةLM

PrefixLM هي تقنية لمعالجة اللغة الطبيعية (NLP) تُستخدم لتدريب النماذج. يبدأ بجزء من جملة (بادئة) ويتعلم التنبؤ بالكلمة التالية. في نماذج لغة الرؤية، تساعد تقنية PrefixLM النموذج على التنبؤ بالكلمات التالية بناءً على صورة وجزء معين من النص. ويستخدم محول الرؤية (ViT)، الذي يقسم الصورة إلى رقع صغيرة، يمثل كل منها جزءًا من الصورة، ويعالجها بالتسلسل. 

الشكل 3. مثال على تدريب آلية تحديد مستوى الصوت المنخفض جداً التي تستخدم تقنية PrefixLM.

SimVLM هو نموذج VLM يستخدم تقنية التعلم PrefixLM. يستخدم بنية محول أبسط مقارنةً بالنماذج السابقة ولكنه يحقق نتائج أفضل في اختبارات مختلفة. تتضمن بنية نموذجه تعلم ربط الصور ببادئات نصية باستخدام مشفر محول ثم توليد نص باستخدام مفكك محول. 

الدمج متعدد الوسائط مع الانتباه المتبادل

الدمج متعدد الوسائط مع الانتباه المتبادل هو تقنية تعمل على تحسين قدرة نموذج لغة الرؤية المدرّب مسبقاً على فهم البيانات المرئية ومعالجتها. تعمل هذه التقنية من خلال إضافة طبقات انتباه متقاطع إلى النموذج، مما يسمح له بالاهتمام بكل من المعلومات البصرية والنصية في نفس الوقت. 

إليك كيفية عمل ذلك: 

  • يتم تحديد العناصر الرئيسية في الصورة وتمييزها. 
  • تتم معالجة الكائنات المميزة بواسطة أداة تشفير بصرية، حيث تتم ترجمة المعلومات البصرية إلى تنسيق يمكن للنموذج فهمه. 
  • يتم تمرير المعلومات المرئية إلى وحدة فك التشفير التي تقوم بتفسير الصورة باستخدام معرفة النموذج اللغوي المُدرَّب مسبقًا.

يعد VisualGPT مثالاً جيدًا على نموذج يستخدم هذه التقنية. وهو يتضمن خاصية خاصة تسمى وحدة التنشيط ذاتية التصحيح (SRAU)، والتي تساعد النموذج على تجنب مشكلة شائعة تسمى التدرجات المتلاشية. يمكن أن تتسبب التدرجات المتلاشية في فقدان النماذج لمعلومات مهمة أثناء التدريب، لكن وحدة التنشيط الذاتي التصحيح الذاتي تحافظ على قوة أداء النموذج. 

الشكل 4. بنية نموذج VisualGPT.

تطبيقات نماذج لغة الرؤية

تؤثر نماذج لغة الرؤية على مجموعة متنوعة من الصناعات. من تحسين منصات التجارة الإلكترونية إلى جعل الإنترنت أكثر سهولة، فإن الاستخدامات المحتملة لنماذج لغة الرؤية البصرية مثيرة للاهتمام. دعونا نستكشف بعض هذه التطبيقات.

إنشاء أوصاف المنتج

عندما تتسوق عبر الإنترنت، ترى أوصافاً مفصلة لكل منتج، ولكن إنشاء هذه الأوصاف قد يستغرق وقتاً طويلاً. تعمل نماذج لغة الرؤية على تبسيط هذه العملية من خلال أتمتة إنشاء هذه الأوصاف. يمكن لتجار التجزئة عبر الإنترنت إنشاء أوصاف تفصيلية ودقيقة مباشرةً من صور المنتجات باستخدام نماذج لغة الرؤية. 

تساعد أوصاف المنتجات عالية الجودة محركات البحث على تحديد المنتجات بناءً على سمات محددة مذكورة في الوصف. على سبيل المثال، الوصف الذي يحتوي على "أكمام طويلة" و"رقبة قطنية" يساعد العملاء في العثور على "قميص قطني طويل الأكمام" بسهولة أكبر. كما أنه يساعد العملاء في العثور على ما يريدونه بسرعة، وبالتالي زيادة المبيعات ورضا العملاء.

الشكل 5. مثال على وصف منتج تم إنشاؤه بواسطة الذكاء الاصطناعي. 

تُعد نماذج الذكاء الاصطناعي التوليدية، مثل BLIP-2، أمثلة على نماذج الذكاء الاصطناعي التوليدي المتطورة التي يمكنها التنبؤ بسمات المنتج مباشرةً من الصور. يستخدم BLIP-2 عدة مكونات لفهم منتجات التجارة الإلكترونية ووصفها بدقة. يبدأ بمعالجة وفهم الجوانب المرئية للمنتج وفهمها باستخدام أداة تشفير الصور. بعد ذلك، يقوم محول استعلام بتفسير هذه المعلومات المرئية في سياق أسئلة أو مهام محددة. وأخيراً، يقوم نموذج لغوي كبير بإنشاء أوصاف مفصلة ودقيقة للمنتج.

جعل الوصول إلى الإنترنت أكثر سهولة

يمكن لنماذج لغة الرؤية أن تجعل الوصول إلى الإنترنت أكثر سهولة من خلال التعليق على الصور، خاصةً للأفراد ضعاف البصر. تقليدياً، يحتاج المستخدمون إلى إدخال أوصاف للمحتوى المرئي على المواقع الإلكترونية ووسائل التواصل الاجتماعي. على سبيل المثال، عند النشر على إنستغرام، يمكنك إضافة نص بديل لقارئات الشاشة. ومع ذلك، يمكن لـ VLMs أتمتة هذه العملية. 

عندما يرى برنامج VLM صورة قطة جالسة على أريكة، يمكنه توليد التعليق "قطة جالسة على أريكة"، مما يجعل المشهد واضحاً للمستخدمين ضعاف البصر. يستخدم برنامج VLMs تقنيات مثل المطالبة بقليل من اللقطات، حيث يتعلمون من بعض الأمثلة لأزواج الصور والتعليقات، والمطالبة بتسلسل الأفكار، مما يساعدهم على تحليل المشاهد المعقدة بشكل منطقي. هذه التقنيات تجعل التعليقات التي يتم إنشاؤها أكثر تماسكاً وتفصيلاً.

الشكل 6. استخدام الذكاء الاصطناعي لإنشاء تسميات توضيحية للصور.

ولهذا الغرض، تقوم خاصية"الحصول على أوصاف الصور من Google" في متصفح كروم Google بإنشاء أوصاف للصور تلقائيًا بدون نص بديل. على الرغم من أن هذه الأوصاف التي ينشئها الذكاء الاصطناعي قد لا تكون مفصّلة مثل تلك التي يكتبها البشر، إلا أنها لا تزال توفر معلومات قيّمة.

فوائد وحدود نماذج لغة الرؤية

تقدم نماذج اللغة المرئية (VLMs) العديد من المزايا من خلال الجمع بين البيانات المرئية والنصية. وتشمل بعض المزايا الرئيسية ما يلي:

  • تفاعل أفضل بين الإنسان والآلة: تمكين الأنظمة من فهم كل من المدخلات المرئية والنصية والاستجابة لها، وتحسين المساعدين الافتراضيين وروبوتات الدردشة والروبوتات.
  • التشخيص والتحليل المتقدم: المساعدة في المجال الطبي من خلال تحليل الصور وتوليد الأوصاف، ودعم المهنيين الصحيين بالرأي الثاني، واكتشاف الحالات الشاذة.
  • رواية القصص التفاعلية والترفيه: إنشاء قصص جذابة من خلال الجمع بين المدخلات المرئية والنصية لتحسين تجارب المستخدم في الألعاب والواقع الافتراضي.

على الرغم من قدراتها المثيرة، إلا أن نماذج لغة الرؤية تأتي مع بعض القيود. إليك بعض الأمور التي يجب وضعها في الاعتبار عندما يتعلق الأمر بنماذج لغة الرؤية:

  • متطلبات حاسوبية عالية: يتطلب تدريب ونشر الآليات الافتراضية ذات القيمة المضافة العالية موارد حاسوبية كبيرة، مما يجعلها مكلفة وأقل تكلفة.
  • التبعية والتحيز في البيانات: يمكن أن تُنتج الآلات ذات القيمة الافتراضية العالية نتائج متحيزة إذا تم تدريبها على مجموعات بيانات غير متنوعة أو متحيزة، مما قد يؤدي إلى إدامة القوالب النمطية والمعلومات الخاطئة.
  • فهم السياق المحدود: قد تكافح الآليات ذات القيمة السوقية المحدودة لفهم الصورة الأكبر أو السياق وتوليد مخرجات مفرطة التبسيط أو غير صحيحة.

الماخذ الرئيسية

تتمتع نماذج اللغة المرئية بإمكانيات هائلة في العديد من المجالات، مثل التجارة الإلكترونية والرعاية الصحية. فمن خلال الجمع بين البيانات المرئية والنصية، يمكن لهذه النماذج أن تدفع عجلة الابتكار وتغيير الصناعات. ومع ذلك، فإن تطوير هذه التقنيات بشكل مسؤول وأخلاقي أمر ضروري لضمان استخدامها بشكل عادل. ومع استمرار تطور تقنيات إدارة المحتوى المرئي والمسموع في التطور، فإنها ستعمل على تحسين مهام مثل البحث القائم على الصور والتقنيات المساعدة. 

لمواصلة التعلم عن الذكاء الاصطناعي، تواصل مع مجتمعنا! استكشف مستودع GitHub الخاص بنا لترى كيف نستخدم الذكاء الاصطناعي لخلق حلول مبتكرة في صناعات مثل التصنيع والرعاية الصحية. 🚀

شعار الفيسبوكشعار تويترشعار لينكد إنرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي