مسرد المصطلحات

CLIP (التدريب المسبق على اللغة والصورة المتباينة)

اكتشف كيف يُحدث برنامج CLIP من OpenAI ثورة في الذكاء الاصطناعي من خلال التعلم بدون لقطات، ومواءمة الصور والنصوص، والتطبيقات الواقعية في مجال الرؤية الحاسوبية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

CLIP (التدريب المسبق للغة والصورة المتباينة) هي شبكة عصبية تم تطويرها بواسطة OpenAI تتعلم المفاهيم البصرية مباشرةً من أوصاف اللغة الطبيعية. وبدلاً من الاعتماد على مجموعات البيانات المنسقة ذات التسميات المحددة مسبقًا مثل نماذج تصنيف الصور التقليدية، يتم تدريب CLIP على مجموعة كبيرة من أزواج الصور والنصوص التي تم جمعها من الإنترنت. ويستخدم تقنية تسمى التعلم المتباين لفهم العلاقة بين الصور والكلمات المستخدمة لوصفها. يسمح هذا ل CLIP بأداء جيد بشكل ملحوظ في المهام التي لم يتم تدريبه عليها بشكل صريح، وهي قدرة تُعرف باسم التعلم بدون لقطات.

كيف يعمل المشبك

تتضمن بنية CLIP مكونين أساسيين: مُشفّر للصور ومُشفّر للنصوص. يعالج مُشفّر الصور، الذي يعتمد غالبًا على بنيات مثل Vision Transformer (ViT) أو ResNet، الصور لالتقاط ميزاتها المرئية. وفي الوقت نفسه، يقوم مشفر النص، وهو عادةً نموذج محول مشابه لتلك المستخدمة في معالجة اللغات الطبيعية (NLP)، بمعالجة الأوصاف النصية المقابلة لاستخراج المعنى الدلالي. أثناء التدريب، يتعلّم النموذج إنشاء تمثيلات (تضمينات) لكل من الصور والنصوص ضمن مساحة مشتركة. الهدف هو تعظيم درجة التشابه بين تضمينات أزواج الصور والنصوص الصحيحة مع تقليل التشابه للأزواج غير الصحيحة داخل مجموعة. هذا الهدف المتباين يعلّم النموذج ربط العناصر المرئية بنظيراتها النصية بفعالية.

الميزات والمزايا الرئيسية

الميزة البارزة في برنامج CLIP هي قدرته القوية على التعلّم دون الحاجة إلى تدريب إضافي. نظرًا لأنه يتعلم علاقة عامة بين الصور واللغة، يمكنه تصنيف الصور بناءً على أوصاف نصية جديدة غير مرئية دون الحاجة إلى تدريب إضافي. على سبيل المثال، حتى لو لم يشاهد برنامج CLIP صورة بعنوان "كرسي أفوكادو بذراعين" أثناء التدريب، فمن المحتمل أن يتعرف على صورة إذا تم تزويده بهذا النص، بالاعتماد على الارتباطات التي تعلمها بين الأنماط البصرية والأشياء (مثل الأفوكادو والكراسي بذراعين) والكلمات الوصفية. وهذا يجعل CLIP مرنًا للغاية وقابلًا للتكيف مع مختلف مهام الرؤية الحاسوبية، وغالبًا ما يحقق أداءً قويًا حتى بالمقارنة مع النماذج المدربة خصيصًا على مجموعات بيانات معيارية مثل ImageNet.

التطبيقات الواقعية

تتيح قدرات CLIP الفريدة العديد من التطبيقات العملية:

  • البحث عن الصور واسترجاعها: يمكن للأنظمة استخدام CLIP للسماح للمستخدمين بالبحث في مكتبات الصور الضخمة باستخدام استعلامات نصية حرة (على سبيل المثال، "أرني صور غروب الشمس فوق الجبال") بدلاً من الاعتماد فقط على علامات محددة مسبقًا. استكشفت منصات مثل Unsplash استخدام CLIP لتحسين البحث عن الصور.
  • الإشراف على المحتوى: يمكن لـ CLIP تحديد الصور التي تحتوي على مفاهيم محددة موصوفة نصيًا (على سبيل المثال، "تصوير العنف" أو "عدم الامتثال لإرشادات العلامة التجارية") دون الحاجة إلى مجموعات بيانات كبيرة مصنفة صراحةً لكل فئة انتهاك محتملة. يوفر هذا نهجًا أكثر مرونة لتصفية المحتوى.

المشبك مقابل الموديلات الأخرى

يختلف CLIP اختلافًا كبيرًا عن نماذج الذكاء الاصطناعي الشائعة الأخرى:

  • مصنفات الصور التقليدية: عادةً ما تتطلب هذه النماذج (التي غالبًا ما يتم تدريبها من خلال التعلّم تحت الإشراف) بيانات مُصنَّفة لكل فئة محددة تحتاج إلى التعرف عليها وتواجه صعوبات في التعامل مع المفاهيم خارج مجموعة التدريب الخاصة بها. تتغلب طبيعة CLIP الصفرية على هذا القيد.
  • كاشفات الأجسام: نماذج مثل Ultralytics YOLO على تحديد الكائنات المتعددة داخل الصورة وتحديد مواقعها باستخدام المربعات المحدّدة، بينما يركّز CLIP بشكل أساسي على فهم محتوى الصورة ككل فيما يتعلق بالنص.
  • نماذج أخرى متعددة الوسائط: بينما تعالج النماذج الخاصة بمهام مثل الإجابة عن الأسئلة المرئية (VQA) أو شرح الصور أيضًا الصور والنصوص، إلا أنها غالبًا ما يتم تدريبها على تنسيقات مدخلات ومخرجات محددة (على سبيل المثال، الإجابة عن سؤال، وإنشاء شرح). يتعلم CLIP تخطيطًا أكثر مرونة للأغراض العامة بين المفاهيم المرئية والنصية. يمكنك معرفة المزيد حول نماذج لغة الرؤية المختلفة على مدونة Ultralytics .

القيود والتوجهات المستقبلية

على الرغم من نقاط قوته، فإن برنامج CLIP له حدود. إذ يمكن أن يتأثر فهمه بالتحيزات الموجودة في بيانات الويب الضخمة غير المنسقة التي تم تدريبه عليها، مما قد يؤدي إلى مشاكل تتعلق بالعدالة في الذكاء الاصطناعي. كما أنه قد يعاني أيضًا في المهام التي تتطلب التعرف على التفاصيل الدقيقة جدًا أو التفكير المكاني أو عدّ الأشياء بدقة. تركز الأبحاث الجارية على التخفيف من التحيزات، وتحسين الفهم الدقيق، واستكشاف طرق للجمع بين المعرفة الدلالية لـ CLIP وقدرات التوطين المكاني لنماذج مثل YOLO. يمكنك متابعة آخر التطورات في مجال الذكاء الاصطناعي على مدونةUltralytics . يمكن إدارة تدريب النماذج ونشرها، بما في ذلك إمكانية الجمع بين ميزات من بنيات مختلفة، باستخدام منصات مثل Ultralytics HUB.

قراءة الكل