مراقبة النموذج هي العملية المستمرة لتتبع وتقييم أداء نماذج التعلم الآلي (ML) بمجرد نشرها في الإنتاج. وهي تنطوي على مراقبة المقاييس الرئيسية المتعلقة بدقة النموذج، والصحة التشغيلية، وخصائص البيانات لضمان أن يتصرف النموذج كما هو متوقع مع مرور الوقت. تُعد هذه الممارسة جزءًا مهمًا من دورة حياة عمليات تعلّم الآلة (MLOps) ، مما يضمن أن تظل أنظمة الذكاء الاصطناعي المنشورة موثوقة وفعالة وجديرة بالثقة في بيئات العالم الحقيقي. وبدون المراقبة، يمكن أن يتدهور أداء النموذج في صمت، مما يؤدي إلى تنبؤات ضعيفة ونتائج سلبية للأعمال.
ما أهمية مراقبة النموذج؟
يتم تدريب نماذج التعلم الآلي على البيانات التاريخية، ولكن العالم الحقيقي ديناميكي. يمكن أن تتسبب التغييرات في أنماط البيانات أو سلوك المستخدم أو البيئة في انخفاض أداء النموذج بعد النشر. تتضمن الأسباب الرئيسية للمراقبة ما يلي:
- الكشف عن تدهور الأداء: يمكن أن تصبح النماذج أقل دقة بمرور الوقت. تساعد المراقبة في تحديد الانخفاضات في مقاييس الأداء مثل الدقة أو الاسترجاع أو درجة F1. يمكنك معرفة المزيد حول مقاييس أداءYOLO في دليلنا.
- تحديد انجراف البيانات: يمكن أن تتغير الخصائص الإحصائية للبيانات المدخلة، وهي ظاهرة تُعرف باسم انجراف البيانات. يمكن أن يحدث هذا عندما تختلف البيانات التي يراها النموذج في الإنتاج اختلافًا كبيرًا عن بيانات التدريب. تساعد مراقبة خصائص المدخلات في اكتشاف مثل هذه التحولات.
- اكتشاف انجراف المفهوم: يمكن أن تتغير العلاقة بين ميزات المدخلات والمتغير المستهدف بمرور الوقت (انجراف المفهوم). على سبيل المثال، قد تتطور تفضيلات العملاء، مما يجعل أنماط التنبؤ القديمة قديمة. يتطلب انجراف المفهوم إعادة تدريب النموذج أو تكييفه.
- ضمان الصحة التشغيلية: يتتبع الرصد المقاييس التشغيلية مثل زمن الاستجابة للاستدلال والإنتاجية ومعدلات الخطأ لضمان عمل البنية التحتية لخدمة النماذج(خدمة النماذج) بسلاسة.
- الحفاظ على العدالة والأخلاقيات: يمكن أن تساعد المراقبة في الكشف عن التحيز في الذكاء الاصطناعي والتخفيف من حدته من خلال تتبع الأداء عبر مختلف المجموعات السكانية أو شرائح البيانات، مما يعزز أخلاقيات الذكاء الاصطناعي.
ما هي الجوانب التي يتم رصدها؟
تتضمن المراقبة الفعالة للنموذج عادةً تتبع عدة فئات من المقاييس:
- أداء التنبؤ: مقاييس مثل الدقة ومتوسط الدقة (mAP) ومتوسط الدقة (mAP) ومعدل الدقة المتوسط ( AUC) ومعدلات الخطأ، وغالبًا ما تتم مقارنتها بالمعايير التي تم وضعها أثناء التحقق من الصحة.
- جودة البيانات وتكاملها: تتبع القيم المفقودة وعدم تطابق نوع البيانات وانتهاكات النطاق في بيانات الإدخال.
- انجراف بيانات المدخلات: التدابير الإحصائية (على سبيل المثال، مؤشر ثبات السكان، واختبار كولموغوروف سميرنوف) لمقارنة توزيع ميزات مدخلات الإنتاج بتوزيع بيانات التدريب.
- انجراف التنبؤ/الإخراج: مراقبة توزيع تنبؤات النموذج لاكتشاف التحولات الكبيرة.
- المقاييس التشغيلية: مقاييس على مستوى النظام مثل CPU/GPU واستخدام الذاكرة، واستخدام الذاكرة، وزمن استجابة الطلب، والإنتاجية. غالبًا ما تُستخدم منصات مثل Prometheus لهذا الغرض.
- مقاييس الإنصاف والتحيز: تقييم التباينات في أداء النموذج عبر السمات الحساسة (مثل العمر والجنس والعرق) باستخدام مقاييس مثل التكافؤ الديموغرافي أو الاحتمالات المتساوية.
مراقبة النموذج مقابل المفاهيم ذات الصلة
من المهم التمييز بين المراقبة النموذجية والمصطلحات المشابهة:
- إمكانية المراقبة: بينما تركز المراقبة على تتبع المقاييس المحددة مسبقًا لتقييم أوضاع الفشل المعروفة، توفر إمكانية المراقبة الأدوات (السجلات والمقاييس والتتبعات) لاستكشاف وفهم حالات وسلوكيات النظام غير المعروفة. تتيح إمكانية المراقبة إجراء تحقيق أعمق عندما تكتشف المراقبة حالة شاذة.
- MLOps: MLOps هي مجموعة أوسع من الممارسات التي تغطي دورة حياة تعلّم الآلة بأكملها، بما في ذلك إدارة البيانات والتدريب على النماذج والنشر والحوكمة والمراقبة. تُعد مراقبة النموذج مكونًا مهمًا في إطار عمل عمليات التشغيل الآلي المتعددة، مع التركيز بشكل خاص على سلامة النموذج بعد النشر.
- تقييم النموذج: يتم إجراء التقييم عادةً قبل النشر باستخدام بيانات التحقق الثابتة أو بيانات الاختبار لتقييم جودة النموذج. أما المراقبة فهي عملية مستمرة يتم إجراؤها على بيانات الإنتاج الحية بعد النشر. اعثر على رؤى حول تقييم النموذج وضبطه هنا.
التطبيقات الواقعية
- أنظمة توصيات التجارة الإلكترونية: تستخدم منصة التجارة الإلكترونية نموذج التعلم الآلي لتوصيات المنتجات(نظام التوصيات). تتتبع مراقبة النموذج معدلات النقر إلى الظهور (CTR) ومعدلات التحويل للعناصر الموصى بها. إذا اكتشفت المراقبة انخفاضًا مفاجئًا في نسبة النقر إلى الظهور (تدهور الأداء) أو تحولاً في أنواع المنتجات التي يتم شراؤها (انحراف المفهوم بسبب اتجاه جديد)، يتم تشغيل التنبيهات. يؤدي ذلك إلى إجراء تحقيق وربما إعادة تدريب النموذج ببيانات تفاعل أحدث. يتضمن تخصيص Amazon Personalize ميزات لمراقبة فعالية التوصيات.
- إدراك المركبات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على نماذج الرؤية الحاسوبية مثل Ultralytics YOLOلاكتشاف الأجسام. وتتتبع مراقبة النموذج باستمرار دقة الكشفYOLO مقاييس أداءYOLO ) ودرجات الثقة للأجسام مثل المشاة وراكبي الدراجات والمركبات الأخرى. كما أنها تراقب خصائص بيانات الإدخال (على سبيل المثال، سطوع الصورة وظروف الطقس) للكشف عن الانحراف. إذا تدهور أداء النموذج بشكل كبير في ظروف معينة (على سبيل المثال، الأمطار الغزيرة والإضاءة المنخفضة)، فقد يتحول النظام إلى وضع تشغيلي أكثر أماناً أو يشير إلى الحاجة إلى تحديثات النموذج المدرّب على بيانات أكثر تنوعاً(زيادة البيانات). تستثمر شركات مثل Waymo بكثافة في مراقبة أنظمة الإدراك الخاصة بها.