مسرد المصطلحات

التعلّم من الصفر

اكتشف التعلُّم الصفري: وهو نهج متطور للذكاء الاصطناعي يُمكِّن النماذج من تصنيف البيانات غير المرئية، مما يُحدث ثورة في اكتشاف الأشياء، ومعالجة اللغات الطبيعية وغيرها.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يُعد التعلم الصفري (ZSL) مجالًا رائعًا في التعلم الآلي (ML) حيث يتم تدريب النموذج على التعرف على الأشياء أو المفاهيم التي لم يسبق له أن رآها صراحةً أثناء التدريب. وعلى عكس أساليب التعلّم التقليدية الخاضعة للإشراف التي تتطلب العديد من الأمثلة المصنفة لكل فئة محتملة، فإن التعلم الصفري يتيح للنماذج إجراء تنبؤات حول الفئات غير المرئية من خلال الاستفادة من المعلومات الإضافية التي تصف هذه الفئات الجديدة. تُعد هذه الإمكانية ضرورية لبناء أنظمة ذكاء اصطناعي أكثر قابلية للتكيف وقابلة للتطوير، خاصةً في المجالات التي يكون فيها الحصول على بيانات موسومة لكل فئة يمكن تصورها غير عملي أو مستحيل.

كيف يعمل التعلّم من الصفر

الفكرة الأساسية وراء ZSL هي سد الفجوة بين الفئات المرئية وغير المرئية باستخدام فضاء دلالي مشترك. يعتمد هذا الفضاء غالبًا على الأوصاف أو السمات أو التضمينات عالية المستوى المستمدة من النصوص أو قواعد المعرفة. أثناء التدريب، يتعلم النموذج أثناء التدريب تعيينًا بين البيانات المدخلة (مثل الصور أو النصوص) وهذا الفضاء الدلالي، باستخدام أمثلة من الفئات "المرئية" فقط. على سبيل المثال، قد يتعلم النموذج ربط صور الخيول والنمور (الفئات المرئية) بالسمات المقابلة لها (على سبيل المثال، "له حوافر"، "له حوافر"، "له خطوط"، "حيوان ثديي").

عند تقديم نموذج لفئة غير مرئية (على سبيل المثال، حمار وحشي)، يستخرج النموذج سماته ويضعها في الفضاء الدلالي المكتسب. ثم يقارن هذا التعيين مع الأوصاف الدلالية للفئات غير المرئية (على سبيل المثال، السمات "له خطوط" و "له حوافر" و "هو حيوان ثديي" التي تصف الحمار الوحشي). يتم اختيار الفئة التي يكون وصفها الدلالي الأقرب في هذا الفضاء كتنبؤ. تتضمن هذه العملية غالبًا تقنيات من التعلم العميق (DL)، باستخدام بنيات مثل الشبكات العصبية التلافيفية (CNNs) لاستخراج السمات ووظائف التعيين لربط السمات البصرية بالسمات الدلالية، وأحيانًا الاستفادة من مفاهيم من محولات الرؤية (ViT) أو نماذج مثل CLIP.

الاختلافات الرئيسية عن المفاهيم المتشابهة

من المهم التمييز بين ZSL ونماذج التعلم ذات الصلة:

  • التعلم من عدد قليل من الأمثلة (FSL): يهدف التعلم باللقطات القليلة إلى تعلم مفاهيم جديدة من عدد قليل جدًا من الأمثلة الموسومة (على سبيل المثال، من 1 إلى 5) لكل فئة، بينما يتطلب التعلم باللقطات الصفرية صفر أمثلة موسومة للفئات المستهدفة. اقرأ المزيد حول فهم تعلم اللقطة القليلة واللقطة الصفرية والتعلم المنقول.
  • التعلّم بلقطة واحدة (OSL): حالة محددة من التعلم بلقطة واحدة حيث يتم توفير مثال واحد موسوم بالضبط لكل فئة جديدة.
  • نقل التعلّم: مفهوم أوسع حيث يتم تطبيق المعرفة المكتسبة من مهمة واحدة على مهمة مختلفة ولكن ذات صلة. ويُعدّ التعلّم المنقول شكلاً من أشكال التعلّم المنقول، ولكنه يركّز تحديدًا على نقل المعرفة (غالبًا عبر السمات الدلالية) للتعرف على فئات غير مرئية تمامًا. نماذج مثل Ultralytics YOLOv8 غالبًا ما تستخدم نقل التعلّم من مجموعات البيانات الكبيرة مثل COCO للتدريب المخصص.
  • التعلم الخاضع للإشراف الذاتي (SSL): تتعلم نماذج SSL التمثيلات من البيانات غير المسماة من خلال إنشاء مهام مسبقة (على سبيل المثال، التنبؤ بالأجزاء المقنعة من المدخلات). على الرغم من فائدتها في التدريب المسبق، إلا أن SSL لا تتعامل بطبيعتها مع الفئات غير المرئية دون آليات إضافية مثل تلك المستخدمة في ZSL.

التطبيقات الواقعية

تتمتع ZSL بإمكانيات كبيرة في مختلف المجالات:

  1. الرؤية الحاسوبية - التعرّف على الكائنات الدقيقة: التعرّف على الأنواع النادرة من الحيوانات أو النباتات أو نماذج منتجات محددة في الصور حيث تكون بيانات التدريب نادرة. على سبيل المثال، يمكن لنظام مدرّب على الطيور الشائعة أن يحدد نوعًا نادرًا بناءً على وصف نصي لريشه وشكل منقاره وموطنه، حتى بدون أمثلة بصرية مسبقة. وهذا يوسّع القدرات إلى ما هو أبعد من القدرات القياسية للكشف عن الكائنات أو تصنيف الصور المدرّبة على الفئات المرئية فقط. تعتمد نماذج مثل YOLO على أفكار مماثلة للكشف عن المفردات المفتوحة.
  2. معالجة اللغة الطبيعية (NLP) - تحديد المواضيع والتعرف على النوايا: تصنيف المستندات أو رسائل البريد الإلكتروني أو استفسارات المستخدمين إلى مواضيع أو نوايا جديدة وناشئة غير موجودة في مجموعة بيانات التدريب الأولية. على سبيل المثال، يمكن لروبوت الدردشة لدعم العملاء تصنيف استعلام عن ميزة منتج تم إطلاقه حديثًا باستخدام وصف الميزة، دون الحاجة إلى أمثلة تدريبية صريحة لمثل هذه الاستفسارات. يستفيد هذا من قوة نماذج اللغات الكبيرة (LLMs) مثل GPT-4.

التحديات والتوجهات المستقبلية

على الرغم من أنها واعدة، إلا أن التعلم الدلالي المحوري يواجه تحديات مثل مشكلة المحورية (حيث تصبح بعض النقاط في الفضاء الدلالي أقرب جيران للعديد من النقاط) وتحول المجال (حيث تختلف العلاقة بين السمات والسمات بين الفئات المرئية وغير المرئية). وتستمر الأبحاث في استكشاف تضمينات دلالية أكثر قوة، ووظائف تعيين أفضل، وتقنيات مثل التعلم الصفري المعمم (GZSL)، والتي تهدف إلى التعرف على كل من الفئات المرئية وغير المرئية أثناء الاستدلال. يمكن أن يؤدي تطوير منصات مثل Ultralytics HUB إلى تسهيل دمج قدرات ZSL ونشرها في تطبيقات الذكاء الاصطناعي للرؤية العملية. قد تستلهم التطورات الأخرى من النماذج متعددة الوسائط التي تربط بطبيعتها بين الرؤية واللغة.

قراءة الكل