مسرد المصطلحات

التعلّم شبه الخاضع للإشراف

اكتشف كيف يجمع التعلُّم شبه الخاضع للإشراف بين البيانات المُسمَّاة وغير المُسمَّاة لتحسين نماذج الذكاء الاصطناعي وتقليل تكاليف التسمية وتعزيز الدقة.

التعلّم شبه الخاضع للإشراف (SSL) هو تقنية تعلّم آلي (ML) تعمل على سد الفجوة بين التعلّم الخاضع للإشراف والتعلّم غير الخاضع للإشراف. وهو يستفيد من كمية صغيرة من البيانات المصنفة إلى جانب كمية كبيرة من البيانات غير المصنفة لتحسين دقة التعلم. في العديد من سيناريوهات العالم الحقيقي، يكون الحصول على البيانات غير الموسومة غير مكلف، ولكن عملية تصنيف البيانات مكلفة وتستغرق وقتًا طويلاً. تعالج تقنية SSL هذا التحدي من خلال السماح للنماذج بالتعلم من مجموعة كبيرة من الأمثلة غير الموسومة، مسترشدةً بالهيكل والمعلومات التي توفرها المجموعة الأصغر الموسومة. هذا النهج قوي بشكل خاص في التعلم العميق (DL)، حيث تتطلب النماذج مجموعات بيانات هائلة لتحقيق أداء عالٍ.

كيف يعمل التعلّم شبه الخاضع للإشراف

تتمثل الفكرة الأساسية وراء SSL في استخدام البيانات المصنفة لبناء نموذج أولي، ثم استخدام هذا النموذج لإجراء تنبؤات على البيانات غير المصنفة. يتم بعد ذلك التعامل مع تنبؤات النموذج الأكثر ثقة على أنها "تسميات زائفة" وإضافتها إلى مجموعة التدريب. يتم بعد ذلك إعادة تدريب النموذج على هذه المجموعة من التسميات الأصلية والتسميات الزائفة ذات الثقة العالية. تسمح هذه العملية التكرارية للنموذج بتعلّم البنية الأساسية لمجموعة البيانات بأكملها، وليس فقط الجزء الصغير المُسمّى.

تتضمن تقنيات SSL الشائعة ما يلي:

  • انتظام الاتساق: تفرض هذه الطريقة فكرة أن تنبؤات النموذج يجب أن تظل متسقة حتى عندما تكون البيانات المدخلة مضطربة قليلاً. على سبيل المثال، يجب أن تسفر الصورة ذات الزيادة الطفيفة في البيانات عن نفس التصنيف.
  • النماذج التوليدية: يمكن لتقنيات مثل شبكات الخصومة التوليدية (GANs ) أن تتعلم توليد بيانات تشبه التوزيع الحقيقي للبيانات، مما يساعد على تحديد حدود القرار بين الفئات بشكل أفضل.
  • الطرق القائمة على الرسم البياني: تمثل هذه الطرق نقاط البيانات على شكل عقد في رسم بياني وتنشر التسميات من العقد المصنفة إلى العقد غير المصنفة بناءً على قربها أو تشابهها. يمكن الاطلاع على نظرة عامة تقنية في الدراسات الاستقصائية الأكاديمية.

التطبيقات الواقعية

تعتبر SSL فعالة للغاية في المجالات التي يكون فيها وضع العلامات عنق الزجاجة. ومن الأمثلة البارزة على ذلك:

  1. تحليل الصور الطبية: يتطلب تصنيف الفحوصات الطبية مثل التصوير بالرنين المغناطيسي أو التصوير المقطعي المحوسب للكشف عن الأورام وجود خبراء أشعة وهو مكلف للغاية. باستخدام SSL، يمكن تدريب نموذج على بضع مئات من صور الأشعة المصنفة ثم تنقيحها باستخدام آلاف الصور غير المصنفة من أرشيفات المستشفيات. يسمح ذلك بتطوير نماذج قوية لتصنيف الصور وتجزئتها بجهد يدوي أقل بكثير.
  2. تصنيف محتوى الويب وتصنيف المستندات: من غير العملي تصنيف مليارات صفحات الويب أو المقالات الإخبارية أو مراجعات العملاء يدويًا. يمكن أن تستخدم SSL مجموعة صغيرة مصنفة يدويًا من المستندات لتدريب مصنف نصي أولي. ثم يصنف النموذج بعد ذلك مجموعة ضخمة من المستندات غير المصنفة، باستخدام تنبؤاته الخاصة لتحسينها بمرور الوقت لمهام مثل تحليل المشاعر أو تصنيف المواضيع.

المقارنة مع نماذج التعلم الأخرى

من المهم التمييز بين SSL ومفاهيم الذكاء الاصطناعي (AI) ذات الصلة:

  • التعلم الخاضع للإشراف الذاتي (SSL): على الرغم من أنه يشترك في الاختصار، إلا أن التعلم الخاضع للإشراف الذاتي مختلف. إنه نوع من التعلّم غير الخاضع للإشراف حيث يتم إنشاء التسميات من البيانات نفسها من خلال مهام مسبقة (على سبيل المثال، التنبؤ بكلمة مقنعة في جملة ما). وهو لا يستخدم أي بيانات مصنفة يدويًا، بينما يتطلب التعلم شبه الخاضع للإشراف مجموعة بيانات صغيرة مصنفة بشكل صريح لتوجيه عملية تدريب النموذج.
  • التعلّم النشط: تهدف هذه التقنية أيضًا إلى تقليل تكاليف التسمية. ومع ذلك، بدلاً من استخدام جميع البيانات غير المُسمّاة، يقوم نموذج التعلّم النشط بالاستعلام بذكاء عن المُعلّق البشري لتسمية نقاط البيانات الأكثر إفادة. على النقيض من ذلك، عادةً ما يستخدم نموذج التعلّم النشط البيانات غير المُسمّاة دون تدخل بشري مباشر أثناء التدريب.
  • نقل التعلّم: يتضمن ذلك استخدام نموذج مُدرَّب مسبقًا على مجموعة بيانات كبيرة (مثل ImageNet) ثم ضبطه على مجموعة بيانات أصغر خاصة بمهمة محددة. بينما يستفيد كلاهما من المعرفة الموجودة، يتعلم تعلم SSL من البيانات غير المسماة للمهمة المستهدفة نفسها، بينما يستفيد التعلم التحويلي من المعرفة من مهمة مختلفة (وإن كانت ذات صلة في كثير من الأحيان).

الأدوات والتدريب

تقدم العديد من أطر عمل التعلم العميق الحديثة، بما في ذلك PyTorch(الموقع الرسمي PyTorch) و TensorFlow(الموقع الرسمي TensorFlow)، وظائف أو يمكن تكييفها لتنفيذ خوارزميات SSL. توفر مكتبات مثل Scikit-learn بعض أساليب SSL. تعمل منصات مثل Ultralytics HUB على تبسيط العملية من خلال تسهيل إدارة مجموعات البيانات التي قد تحتوي على مزيج من البيانات الموسومة وغير الموسومة، مما يبسط تدريب ونشر النماذج المصممة للاستفادة من هياكل البيانات هذه. يستمر تطور البحث في SSL، وغالبًا ما يتم تقديم المساهمات في مؤتمرات الذكاء الاصطناعي الكبرى مثل NeurIPS والمؤتمر الدولي للذكاء الاصطناعي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة