مسرد المصطلحات

التعلّم شبه الخاضع للإشراف

اكتشف كيف يجمع التعلُّم شبه الخاضع للإشراف بين البيانات المُسمَّاة وغير المُسمَّاة لتحسين نماذج الذكاء الاصطناعي وتقليل تكاليف التسمية وتعزيز الدقة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلُّم شبه الخاضع للإشراف (SSL) هو نوع من تقنيات التعلُّم الآلي (ML) التي تقع بين التعلُّم الخاضع للإشراف والتعلُّم غير الخاضع للإشراف. وهي تستخدم مزيجًا من كمية صغيرة من البيانات المصنفة وكمية كبيرة من البيانات غير المصنفة لتدريب النماذج. الدافع الأساسي وراء تقنية SSL هو التكلفة العالية والجهد المرتفع المرتبطين غالبًا بتسمية البيانات، خاصة في المجالات المعقدة. ومن خلال الاستفادة من البيانات غير المسمّاة المتاحة بسهولة، تهدف SSL إلى تحسين أداء النموذج وتعميمه بما يتجاوز ما يمكن تحقيقه باستخدام البيانات المسمّاة المحدودة فقط.

كيف يعمل التعلّم شبه الخاضع للإشراف

يتمثل المبدأ الأساسي للتعلّم شبه الخاضع للإشراف في أن البيانات غير المُسمّاة تحتوي على معلومات قيّمة حول البنية الأساسية للبيانات وتوزيعها على الرغم من افتقارها إلى تسميات واضحة. تحاول خوارزميات التعلّم شبه الخاضع للإشراف استغلال هذه البنية لتعزيز عملية التعلّم. وغالبًا ما تتضمن الأساليب الشائعة وضع افتراضات حول البيانات، مثل "افتراض المجموعة" (من المرجح أن يكون للنقاط في نفس المجموعة نفس التسمية) أو "افتراض المتشعب" (تقع نقاط البيانات على متشعب منخفض الأبعاد).

تتضمن التقنيات المستخدمة في SSL طرقًا مثل التسمية الزائفة، حيث يتم استخدام نموذج مدرّب على البيانات الأولية المصنفة للتنبؤ بالتسميات للبيانات غير المصنفة. ثم يتم التعامل مع التنبؤات ذات الثقة العالية على أنها "تسميات زائفة" وإضافتها إلى مجموعة التدريب. هناك طريقة أخرى تتضمن تنظيم الاتساق، والتي تشجع النموذج على إنتاج مخرجات مماثلة للنسخ المضطربة من نفس المدخلات غير المعنونة، وغالبًا ما يتم تحقيق ذلك من خلال تقنيات مثل زيادة البيانات. تساعد هذه الأساليب النموذج على تعلم ميزات أكثر قوة من خلال الاستفادة من مجموعة البيانات الضخمة غير المُسمّاة. يمكنك العثور على نظرة عامة جيدة عن SSL على نحو علم البيانات.

التطبيقات والأمثلة

يعتبر التعلّم شبه الخاضع للإشراف مفيدًا بشكل خاص في السيناريوهات التي يكون فيها الحصول على البيانات المصنفة عنق الزجاجة. تتضمن بعض مجالات التطبيق الرئيسية ما يلي:

  • تصنيف الصور: تدريب نموذج لتصنيف الصور (على سبيل المثال، باستخدام مجموعات بيانات مثل CIFAR-10) حيث يتم تصنيف جزء صغير فقط من الصور يدويًا، ولكن تتوفر ملايين الصور غير المصنفة من الويب.
  • تحليل الصور الطبية: تحسين النماذج التشخيصية من خلال التدريب على عدد قليل من الفحوصات الطبية المشروحة من قبل الخبراء إلى جانب مجموعة أكبر من الفحوصات غير المشروحة. يمكن أن يؤدي ذلك إلى تحسين مهام مثل اكتشاف الأورام.
  • تصنيف صفحات الويب: تصنيف صفحات الويب باستخدام مجموعة صغيرة من الصفحات المصنفة يدويًا وعدد كبير من الصفحات غير المصنفة التي تم كشطها من الإنترنت. انظر مثال بحثي مبكر عن تصنيف محتوى الويب.
  • التعرّف على الكلام: بناء أنظمة باستخدام كمية محدودة من البيانات الصوتية المدوّنة مع كميات كبيرة من الكلام غير المدوّن.
  • معالجة اللغات الطبيعية (NLP): تعزيز مهام مثل تحليل المشاعر أو تصنيف النصوص من خلال الاستفادة من مجموعات كبيرة من النصوص غير الموسومة إلى جانب مجموعات بيانات أصغر موسومة.

الفروق من المفاهيم ذات الصلة

من المهم التفريق بين التعلم شبه الخاضع للإشراف ونماذج التعلم الآلي ذات الصلة:

  • التعلّم تحت الإشراف: يعتمد بالكامل على البيانات المصنفة بالكامل للتدريب. يستخدم SSL كلاً من البيانات المصنفة وغير المصنفة.
  • التعلّم غير الخاضع للإشراف: يستخدم فقط بيانات غير معنونة، عادةً لمهام مثل التجميع أو تقليل الأبعاد، دون توقع تسميات محددة مسبقًا. تستخدم SSL بيانات غير معلمة لتحسين مهمة خاضعة للإشراف.
  • التعلّم الخاضع للإشراف الذاتي: يستخدم أيضًا بيانات غير موسومة، لكنه يولد إشارات إشرافية من البيانات نفسها (على سبيل المثال، التنبؤ بكلمة مقنعة، أو تلوين صورة). وغالبًا ما يُستخدم في نماذج ما قبل التدريب التي يتم ضبطها بعد ذلك على البيانات المُسمّاة، في حين أن التعلم الذاتي الإشراف الذاتي عادةً ما يدمج كلا نوعي البيانات خلال مرحلة التدريب الرئيسية.

مزايا التعلّم شبه الخاضع للإشراف

  • انخفاض تكلفة وضع العلامات: يقلل بشكل كبير من الحاجة إلى وضع تعليقات توضيحية يدوية للبيانات باهظة الثمن وتستغرق وقتًا طويلاً.
  • تحسين الدقة: يمكن أن يؤدي إلى دقة أعلى للنموذج مقارنةً بالتدريب فقط على مجموعات بيانات صغيرة موسومة من خلال الاستفادة من المعلومات من البيانات غير الموسومة.
  • تعميم محسّن: غالبًا ما تعمم النماذج المدربة باستخدام SSL بشكل أفضل على البيانات الجديدة غير المرئية من خلال تعلم هياكل البيانات الأساسية.
  • يستفيد من البيانات الوفيرة: يستفيد بفعالية من الكميات الهائلة من البيانات غير الموسومة المتوفرة في العديد من التطبيقات الواقعية.

يوفر التعلّم شبه الخاضع للإشراف نهجًا عمليًا وقويًا لبناء أنظمة ذكاء اصطناعي فعالة، خاصةً في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام حيث تتوافر الصور أو مقاطع الفيديو غير الموسومة بكثرة. تعمل منصات مثل Ultralytics HUB على تسهيل إدارة مجموعات البيانات التي قد تتضمن مزيجًا من البيانات الموسومة وغير الموسومة لنماذج التدريب مثل Ultralytics YOLO. يمكن أن يكون استكشاف تقنيات SSL أمرًا حاسمًا للمشاريع التي تواجه قيودًا في توافر البيانات الموسومة، كما هو موضح في موارد مثل منشورات مدونةGoogle للذكاء الاصطناعي حول SSL.

قراءة الكل