استكشف التعلم بدون تدريب (ZSL) detect classify دون الحاجة إلى بيانات تدريب. تعرف على كيفية تمكين Ultralytics YOLO من اكتشاف المفردات المفتوحة في الوقت الفعلي.
التعلم بدون تدريب (ZSL) هو نموذج للتعلم الآلي يمكّن نماذج الذكاء الاصطناعي من التعرف على detect التي لم تصادفها من قبل أثناء مرحلة التدريب classify أو detect . في التعلم التقليدي المشرف عليه، يحتاج النموذج إلى آلاف الأمثلة المصنفة لكل فئة محددة يحتاج إلى تحديدها. يزيل ZSL هذه التبعية الصارمة من خلال الاستفادة من المعلومات الإضافية — عادةً ما تكون أوصاف نصية أو سمات دلالية أو تضمينات— لسد الفجوة بين الفئات المرئية وغير المرئية . تتيح هذه القدرة لأنظمة الذكاء الاصطناعي (AI) أن تكون أكثر مرونة وقابلية للتطوير وقدرة على التعامل مع البيئات الديناميكية حيث يكون جمع بيانات شاملة لكل كائن ممكن أمرًا غير عملي.
تتضمن الآلية الأساسية لـ ZSL نقل المعرفة من المفاهيم المألوفة إلى المفاهيم غير المألوفة باستخدام مساحة دلالية مشتركة. بدلاً من تعلم التعرف على "الزرافة" فقط عن طريق حفظ أنماط البكسل للخطوط السوداء والبيضاء ، يتعلم النموذج العلاقة بين السمات البصرية والسمات الدلالية (على سبيل المثال، "شكل يشبه الحصان" و"نمط مخطط" و"أربع أرجل") المستمدة من معالجة اللغة الطبيعية (NLP).
غالبًا ما تعتمد هذه العملية على نماذج متعددة الوسائط توائم بين تمثيلات الصور والنصوص . على سبيل المثال، توضح الأبحاث الأساسية مثل CLIP من OpenAI كيف يمكن للنماذج تعلم المفاهيم البصرية من الإشراف على اللغة الطبيعية. عندما يواجه نموذج ZSL كائنًا غير مرئي، فإنه يستخرج السمات البصرية و يقارنها بقاموس من المتجهات الدلالية. إذا كانت السمات البصرية تتوافق مع الوصف الدلالي للفئة الجديدة، يمكن للنموذج classify بشكل صحيح، مما يؤدي إلى تنفيذ تنبؤ "بدون محاولة" بشكل فعال. هذا النهج أساسي للنماذج الأساسية الحديثة التي تعمم عبر مجموعة واسعة من المهام.
التعلم بدون تدريب (Zero-Shot Learning) يدفع عجلة الابتكار في مختلف الصناعات من خلال تمكين الأنظمة من التعميم بما يتجاوز بيانات التدريب الأولية.
يُعد نموذج Ultralytics YOLO مثالاً على تطبيق التعلم بدون تدريب (Zero-Shot Learning). فهو يتيح للمستخدمين تحديد فئات مخصصة ديناميكيًا في وقت التشغيل دون إعادة تدريب النموذج. ويتم تحقيق ذلك عن طريق ربط شبكة أساسية قوية للكشف بمشفّر نصي يفهم اللغة الطبيعية.
يوضح Python التالي Python كيفية استخدام YOLO detect التي لم تكن جزءًا صريحًا من
مجموعة التدريب القياسية باستخدام ultralytics الحزمة.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of Zero-Shot Learning
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes via text prompts (e.g., specific accessories)
# The model adjusts to detect these new classes without retraining
model.set_classes(["blue backpack", "red apple", "sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
لفهم ZSL فهماً كاملاً، من المفيد تمييزه عن استراتيجيات التعلم المماثلة المستخدمة في الرؤية الحاسوبية (CV):
على الرغم من أن ZSL يوفر إمكانات هائلة، إلا أنه يواجه تحديات مثل مشكلة تحول المجال، حيث لا تتطابق السمات الدلالية التي تم تعلمها أثناء التدريب تمامًا مع المظهر البصري للفئات غير المرئية. بالإضافة إلى ذلك، يمكن أن تعاني نماذج ZSL من التحيز، حيث تكون دقة التنبؤ أعلى بكثير للفئات المرئية مقارنة بالفئات غير المرئية.
تواصل الأبحاث التي تجريها مؤسسات مثل مختبر الذكاء الاصطناعي بجامعة ستانفورد و جمعية IEEE للكمبيوتر معالجة هذه القيود. مع زيادة قوة أدوات الرؤية الحاسوبية ، من المتوقع أن تصبح ZSL ميزة قياسية، مما يقلل من الاعتماد على جهود وضع العلامات على البيانات الضخمة. بالنسبة للفرق التي تسعى إلى إدارة مجموعات البيانات بكفاءة قبل نشر النماذج المتقدمة، توفر Ultralytics أدوات شاملة للتعليق وإدارة مجموعات البيانات.