مسرد المصطلحات

التعلّم النشط

اكتشف التعلُّم النشط، وهو طريقة تعلُّم آلي فعّالة من حيث التكلفة تعزز الدقة بعدد أقل من التسميات. تعرّف على كيفية تحويل تدريب الذكاء الاصطناعي!

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعلم النشط هو مجال فرعي متخصص ضمن التعلم الآلي (ML) حيث يمكن لخوارزمية التعلم أن تستعلم بشكل تفاعلي من مستخدم، وغالبًا ما يُطلق عليه اسم "أوراكل" أو شارح بشري، لطلب تسميات لنقاط بيانات جديدة. على عكس التعلّم التقليدي الخاضع للإشراف، والذي يتطلب عادةً مجموعة بيانات كبيرة مُسمّاة مسبقًا، يهدف التعلّم النشط إلى تحقيق أداء عالٍ للنموذج بجهد أقل بكثير في وضع العلامات. وهو يقوم بذلك عن طريق الاختيار الاستراتيجي لأكثر النماذج غير المسماة إفادةً من أجل التعليق التوضيحي. يعتبر هذا النهج ذا قيمة خاصة في المجالات التي يكون فيها الحصول على بيانات موسومة مكلفًا أو يستغرق وقتًا طويلاً أو يتطلب معرفة متخصصة من الخبراء، مثل تحليل الصور الطبية أو مهام معالجة اللغات الطبيعية المعقدة. تتمثل الفكرة الأساسية في السماح للنموذج بتوجيه عملية وضع العلامات على البيانات، وتركيز الجهد البشري حيث يكون أكثر تأثيرًا في تحسين دقة النموذج.

كيف يعمل التعلّم النشط

تتبع عملية التعلم النشط بشكل عام دورة تكرارية، مما يسمح للنموذج بالتحسين التدريجي مع البيانات المستهدفة:

  1. تدريب النموذج الأولي: نموذج، مثل نموذج Ultralytics YOLOلاكتشاف الأجسام أو تجزئة الصور، على مجموعة بيانات صغيرة مصنفة مبدئيًا.
  2. الاستعلام عن البيانات غير المسمّاة: يُستخدم النموذج المُدرّب لإجراء تنبؤات(استنتاج) على مجموعة من البيانات غير المُسمّاة.
  3. تطبيق استراتيجية الاستعلام: تقوم استراتيجية الاستعلام بتحليل تنبؤات النموذج (على سبيل المثال، استنادًا إلى الثقة في التنبؤ أو عدم اليقين) لتحديد نقاط البيانات غير المسماة الأكثر إفادة - تلك التي يكون النموذج أقل يقينًا بشأنها أو التي من المتوقع أن توفر أكبر قدر من المعلومات الجديدة.
  4. شرح أوراكل: يتم تقديم نقاط البيانات المختارة إلى شارح بشري (أوراكل) لوضع العلامات. تعتبر ممارسات جمع البيانات والتعليقات التوضيحية الفعالة أمرًا بالغ الأهمية هنا.
  5. إعادة تدريب النموذج: تُضاف البيانات المصنفة حديثًا إلى مجموعة التدريب، ويُعاد تدريب النموذج (أو ضبطه) باستخدام مجموعة البيانات الموسعة هذه.
  6. التكرار: تتكرر الدورة من الخطوة 2 حتى الوصول إلى مستوى الأداء المطلوب، أو استنفاد ميزانية التوسيم، أو عدم وجود عينات مفيدة بشكل كبير متبقية.

استراتيجيات الاستعلام

تعتمد فعالية التعلّم النشط بشكل كبير على استراتيجية الاستعلام، أي الخوارزمية المستخدمة لتحديد نقاط البيانات غير المسمّاة التي يجب تصنيفها بعد ذلك. الهدف هو اختيار العينات التي من المحتمل أن تؤدي إلى أكبر قدر من التحسن في أداء النموذج بمجرد تصنيفها. تشمل الاستراتيجيات الشائعة ما يلي:

  • أخذ عينات عدم اليقين: يختار الحالات التي يكون فيها النموذج أقل ثقة في تنبؤاته. وغالباً ما يقاس ذلك باحتمالية التنبؤ أو الانتروبيا أو الهامش بين أفضل التنبؤات.
  • الاستعلام حسب اللجنة (QBC): تستخدم مجموعة من النماذج. يتم اختيار الحالات التي يختلف فيها أعضاء اللجنة أكثر من غيرها على التنبؤ لوضع العلامات.
  • تغيير النموذج المتوقع: يحدد المثيلات التي من شأنها أن تسبب أكبر تغيير في معلمات النموذج أو تدرجاتها إذا كانت تسمياتها معروفة.
  • المقاربات القائمة على الكثافة: تعطي الأولوية للحالات التي لا تكون غير مؤكدة فحسب، بل تمثل أيضًا توزيعات البيانات الأساسية.

يمكن العثور على نظرة عامة شاملة للاستراتيجيات في مصادر مثل مسح أدبيات التعلم النشط لـ Burr Settles.

الملاءمة والفوائد

يقلل التعلّم النشط بشكل كبير من العبء والتكلفة المرتبطين بتسمية البيانات، والتي غالبًا ما تكون عنق الزجاجة الرئيسي في تطوير نماذج قوية للتعلّم العميق. من خلال تركيز جهود الشرح بشكل استراتيجي، فإنه يسمح للفرق بما يلي:

  • تحقيق دقة أعلى ببيانات أقل: الحصول على أداء أفضل للنموذج مقارنةً بأخذ العينات العشوائية، بالنظر إلى نفس ميزانية وضع العلامات.
  • تقليل تكاليف وضع العلامات: تقليل الوقت والموارد التي يتم إنفاقها على التعليقات التوضيحية اليدوية.
  • تسريع تطوير النماذج: الوصول إلى مستويات الأداء المطلوبة بشكل أسرع من خلال تحديد أولويات البيانات الأكثر تأثيراً. اكتشف كيف يسرّع التعلّم النشط من تطوير الرؤية الحاسوبية.
  • تحسين متانة النموذج: يمكن أن يساعد التركيز على الأمثلة الغامضة أو الصعبة في تعميم النماذج بشكل أفضل.

التطبيقات الواقعية

يتم تطبيق التعلّم النشط في مختلف المجالات التي تكون فيها البيانات المصنفة قيدًا:

  • التصوير الطبي: في مهام مثل الكشف عن الأورام باستخدام نماذج YOLO يكون وقت خبراء الأشعة قيماً. يختار التعلُّم النشط عمليات الفحص الأكثر غموضاً للمراجعة، مما يؤدي إلى الاستخدام الأمثل لموارد الخبراء. وهذا أمر بالغ الأهمية لتطوير حلول فعالة للذكاء الاصطناعي في مجال الرعاية الصحية.
  • معالجة اللغة الطبيعية (NLP): بالنسبة لمهام مثل تحليل المشاعر أو التعرف على الكيانات المسماة (NER)، فإن تحديد عينات نصية مفيدة (على سبيل المثال، تلك التي تحتوي على مشاعر غامضة أو كيانات نادرة) لوضع العلامات يحسن دقة النموذج بكفاءة. أدوات من منصات مثل Hugging Face غالبًا ما تستفيد من هذه التقنيات.
  • المركبات ذاتية القيادة: يساعد اختيار سيناريوهات القيادة الصعبة أو النادرة (على سبيل المثال، الظروف الجوية غير الاعتيادية والتقاطعات المعقدة) من كميات هائلة من بيانات القيادة غير الموسومة للتعليق التوضيحي على تحسين سلامة وموثوقية أنظمة القيادة الذاتية.
  • تحليل صور الأقمار الصناعية: يمكن تسريع عملية تحديد ميزات أو تغييرات محددة في مجموعات بيانات صور الأقمار الصناعية الكبيرة من خلال جعل النموذج يستعلم عن مناطق غير مؤكدة لمراجعتها من قبل الخبراء.

التعلّم النشط مقابل المفاهيم ذات الصلة

من المهم التمييز بين التعلّم النشط ونماذج التعلّم الأخرى التي تستخدم أيضًا بيانات غير مُسمّاة:

  • التعلّم شبه الخاضع للإشراف: يستخدم كلاً من البيانات المسمّاة وغير المسمّاة في وقت واحد أثناء تدريب النموذج. وعلى عكس التعلّم النشط، فإنه عادةً ما يستخدم جميع البيانات المتاحة غير المسمّاة بشكل سلبي، بدلاً من الاستعلام بشكل انتقائي عن حالات محددة للتسميات.
  • التعلّم الخاضع للإشراف الذاتي: يتعلّم التمثيلات من البيانات غير المسمّاة من خلال إنشاء مهام ما قبل التسمية (على سبيل المثال، التنبؤ بجزء مقنّع من الصورة). وهو لا يتطلب شرحًا بشريًا خلال مرحلة ما قبل التدريب، بينما يعتمد التعلم النشط على أوراكل للتسميات.
  • التعلم المعزز: يتعلم عن طريق التجربة والخطأ من خلال التفاعلات مع البيئة، وتلقي المكافآت أو العقوبات على الأفعال. لا يتضمن الاستعلام عن التسميات الصريحة مثل التعلم النشط.
  • التعلم الموحد: يركّز على نماذج التدريب عبر الأجهزة اللامركزية مع الحفاظ على البيانات محلياً، ويعالج في المقام الأول مخاوف خصوصية البيانات. التعلم النشط: يركز على الحصول على التسمية الفعالة. يمكن الجمع بين هذه التقنيات في بعض الأحيان.

الأدوات والتنفيذ

غالبًا ما يتضمن تنفيذ التعلّم النشط دمج نماذج التعلم الآلي مع أدوات التعليق التوضيحي وإدارة سير عمل البيانات. تقدم الأطر والمكتبات مثل scikit-learn بعض الوظائف، بينما توجد مكتبات متخصصة لمهام محددة. يمكن دمج برامج التعليقات التوضيحية مثل Label Studio في خطوط أنابيب التعلّم النشط، مما يسمح للمشرحين بتوفير تسميات للعينات المستفسر عنها. منصات مثل DagsHub أدوات لبناء خطوط الأنابيب هذه وإدارتها، كما نوقش في حديثهم في مؤتمرYOLO VISION 2023 حول خطوط أنابيب التعلم النشط DagsHub . تعد الإدارة الفعالة لمجموعات البيانات المتطورة والنماذج المدربة أمرًا بالغ الأهمية، وتوفر منصات مثل Ultralytics HUB بنية تحتية لتنظيم هذه الأصول طوال دورة حياة التطوير. استكشف مستودعUltralytics GitHub وانضم إلى مجتمعUltralytics للمناقشات والموارد المتعلقة بتطبيق تقنيات التعلم الآلي المتقدمة.

قراءة الكل