اكتشف التعلُّم الصفري: وهو نهج متطور للذكاء الاصطناعي يُمكِّن النماذج من تصنيف البيانات غير المرئية، مما يُحدث ثورة في اكتشاف الأشياء، ومعالجة اللغات الطبيعية وغيرها.
يُعد التعلم الصفري (ZSL) مجالًا رائعًا في التعلم الآلي (ML) حيث يتم تدريب النموذج على التعرف على الأشياء أو المفاهيم التي لم يسبق له أن رآها صراحةً أثناء التدريب. وعلى عكس أساليب التعلّم التقليدية الخاضعة للإشراف التي تتطلب العديد من الأمثلة المصنفة لكل فئة محتملة، فإن التعلم الصفري يتيح للنماذج إجراء تنبؤات حول الفئات غير المرئية من خلال الاستفادة من المعلومات الإضافية التي تصف هذه الفئات الجديدة. تُعد هذه الإمكانية ضرورية لبناء أنظمة ذكاء اصطناعي أكثر قابلية للتكيف وقابلة للتطوير، خاصةً في المجالات التي يكون فيها الحصول على بيانات موسومة لكل فئة يمكن تصورها غير عملي أو مستحيل.
الفكرة الأساسية وراء ZSL هي سد الفجوة بين الفئات المرئية وغير المرئية باستخدام فضاء دلالي مشترك. يعتمد هذا الفضاء غالبًا على الأوصاف أو السمات أو التضمينات عالية المستوى المستمدة من النصوص أو قواعد المعرفة. أثناء التدريب، يتعلم النموذج أثناء التدريب تعيينًا بين البيانات المدخلة (مثل الصور أو النصوص) وهذا الفضاء الدلالي، باستخدام أمثلة من الفئات "المرئية" فقط. على سبيل المثال، قد يتعلم النموذج ربط صور الخيول والنمور (الفئات المرئية) بالسمات المقابلة لها (على سبيل المثال، "له حوافر"، "له حوافر"، "له خطوط"، "حيوان ثديي").
عند تقديم نموذج لفئة غير مرئية (على سبيل المثال، حمار وحشي)، يستخرج النموذج سماته ويضعها في الفضاء الدلالي المكتسب. ثم يقارن هذا التعيين مع الأوصاف الدلالية للفئات غير المرئية (على سبيل المثال، السمات "له خطوط" و "له حوافر" و "هو حيوان ثديي" التي تصف الحمار الوحشي). يتم اختيار الفئة التي يكون وصفها الدلالي الأقرب في هذا الفضاء كتنبؤ. تتضمن هذه العملية غالبًا تقنيات من التعلم العميق (DL)، باستخدام بنيات مثل الشبكات العصبية التلافيفية (CNNs) لاستخراج السمات ووظائف التعيين لربط السمات البصرية بالسمات الدلالية، وأحيانًا الاستفادة من مفاهيم من محولات الرؤية (ViT) أو نماذج مثل CLIP.
من المهم التمييز بين ZSL ونماذج التعلم ذات الصلة:
تتمتع ZSL بإمكانيات كبيرة في مختلف المجالات:
على الرغم من أنها واعدة، إلا أن التعلم الدلالي المحوري يواجه تحديات مثل مشكلة المحورية (حيث تصبح بعض النقاط في الفضاء الدلالي أقرب جيران للعديد من النقاط) وتحول المجال (حيث تختلف العلاقة بين السمات والسمات بين الفئات المرئية وغير المرئية). وتستمر الأبحاث في استكشاف تضمينات دلالية أكثر قوة، ووظائف تعيين أفضل، وتقنيات مثل التعلم الصفري المعمم (GZSL)، والتي تهدف إلى التعرف على كل من الفئات المرئية وغير المرئية أثناء الاستدلال. يمكن أن يؤدي تطوير منصات مثل Ultralytics HUB إلى تسهيل دمج قدرات ZSL ونشرها في تطبيقات الذكاء الاصطناعي للرؤية العملية. قد تستلهم التطورات الأخرى من النماذج متعددة الوسائط التي تربط بطبيعتها بين الرؤية واللغة.