مسرد المصطلحات

بيانات الاختبار

اكتشف أهمية بيانات الاختبار في الذكاء الاصطناعي، ودورها في تقييم أداء النموذج، واكتشاف الإفراط في التكييف، وضمان الموثوقية في العالم الحقيقي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تعد بيانات الاختبار عنصرًا حاسمًا في دورة حياة تطوير التعلم الآلي (ML). وهي تشير إلى مجموعة بيانات مستقلة، منفصلة عن مجموعتي التدريب والتحقق من الصحة، تُستخدم حصريًا للتقييم النهائي لأداء النموذج بعد اكتمال مرحلتي التدريب والضبط. تحتوي مجموعة البيانات هذه على نقاط بيانات لم يسبق للنموذج أن واجهها من قبل، مما يوفر تقييمًا غير متحيز لمدى جودة أداء النموذج على بيانات جديدة في العالم الحقيقي. الهدف الأساسي من استخدام بيانات الاختبار هو تقدير قدرة النموذج على التعميم - أي قدرته على الأداء بدقة على مدخلات غير مرئية.

أهمية بيانات الاختبار

يكمن المقياس الحقيقي لنجاح نموذج التعلّم الآلي في قدرته على التعامل مع البيانات التي لم يتم تدريبه عليها صراحةً. تُعد بيانات الاختبار بمثابة نقطة التحقق النهائية، حيث تقدم تقييماً موضوعياً لأداء النموذج. فبدون مجموعة اختبار مخصصة، هناك خطر كبير من الإفراط في التخصيص، حيث يتعلم النموذج بيانات التدريب بشكل جيد للغاية، بما في ذلك الضوضاء والأنماط المحددة، ولكنه يفشل في التعميم على البيانات الجديدة. يساعد استخدام بيانات الاختبار على التأكد من أن مقاييس الأداء المُبلغ عنها تعكس قدرات النموذج المتوقعة في العالم الحقيقي، مما يعزز الثقة قبل نشر النموذج. تُعد خطوة التقييم النهائية هذه ضرورية لمقارنة النماذج أو المقاربات المختلفة بشكل موثوق، مثل مقارنة YOLOv8 مقابل YOLOv9.

الخصائص الرئيسية

لكي تكون بيانات الاختبار فعالة، يجب أن تمتلك بيانات الاختبار خصائص معينة:

  • الاستقلالية: يجب أن يكون منفصلاً تمامًا عن البيانات المستخدمة في التدريب والتحقق من الصحة. يجب ألا يرى النموذج أبدًا بيانات الاختبار أثناء أي جزء من عملية التدريب أو ضبط المعلمة الفائقة.
  • التمثيلية: يجب أن يعكس بدقة خصائص وتوزيع بيانات العالم الحقيقي التي سيواجهها النموذج في الإنتاج. يتضمن ذلك أنواعًا متشابهة من المدخلات والاختلافات والحالات الحادة المحتملة. تعتبر أفضل ممارسات جمع البيانات والتعليقات التوضيحية ضرورية هنا.
  • الحجم الكافي: على الرغم من أن مجموعة الاختبار غالبًا ما تكون أصغر من مجموعة التدريب، إلا أنه يجب أن تكون مجموعة الاختبار كبيرة بما يكفي لتوفير نتائج تقييم ذات دلالة إحصائية. قد يؤدي عدم كفاية الحجم إلى تقديرات أداء غير موثوقة، كما هو موضح في قواعدGoogle للتعلم الآلي.

بيانات الاختبار مقابل بيانات التدريب والتحقق من الصحة

من الضروري التمييز بين بيانات الاختبار وتقسيمات البيانات الأخرى المستخدمة في تعلّم الآلة:

  • بيانات التدريب: هذا هو الجزء الأكبر من مجموعة البيانات، ويُستخدم مباشرةً لتدريب النموذج من خلال تعديل معلماته الداخلية أو أوزانه.
  • بيانات التحقق من صحة البيانات: تُستخدم هذه المجموعة الفرعية المنفصلة أثناء عملية التدريب لضبط المعلمات الفائقة للنموذج (مثل معدل التعلم أو خيارات بنية الشبكة) واتخاذ قرارات بشأن عملية التدريب نفسها (مثل التوقف المبكر). في حين أنه غير مرئي أثناء تحديثات المعلمات، إلا أنه يؤثر بشكل غير مباشر على النموذج النهائي من خلال اختيار المعلمة الفائقة. يمكن العثور على مزيد من التفاصيل في دليلنا حول تقييم النموذج والضبط الدقيق.
  • بيانات الاختبار: يتم استخدام مجموعة البيانات هذه مرة واحدة فقط بعد تدريب النموذج وضبطه بالكامل، مما يوفر تقييم الأداء النهائي غير المتحيز. يجب ألا تؤثر على أي قرارات تدريب أو ضبط. غالبًا ما تأتي مجموعات البيانات المعيارية القياسية مثل COCO مع تقسيمات اختبار محددة مسبقًا للتقييم الموحد.

أمثلة من العالم الحقيقي

  1. القيادة الذاتية: تحليلات Ultralytics YOLO سيتم تقييم النموذج المُدرَّب على اكتشاف الأجسام (اكتشاف السيارات والمشاة وإشارات المرور) باستخدام مجموعة اختبارية من لقطات الطريق المسجلة في ظروف (الطقس، والوقت من اليوم، والمواقع) غير المدرجة في مجموعات التدريب أو التحقق من الصحة. يضمن ذلك موثوقية النموذج في سيناريوهات القيادة المتنوعة في العالم الحقيقي، وهو أمر بالغ الأهمية للذكاء الاصطناعي في السيارات ذاتية القيادة.
  2. التشخيص الطبي: سيتم اختبار نموذج تم تطويره لتحليل الصور الطبية، مثل الكشف عن الأورام في الأشعة السينية باستخدام مجموعات بيانات مثل مجموعة بيانات الكشف عن أورام الدماغ، على مجموعة جديدة تمامًا من صور المرضى من مستشفيات أو ماسحات ضوئية مختلفة عن تلك المستخدمة للتدريب والتحقق من الصحة. وهذا يؤكد دقتها التشخيصية قبل الاستخدام السريري المحتمل، كما تمت مناقشته في دور الذكاء الاصطناعي في الأبحاث السريرية.

تقييم الأداء على بيانات الاختبار

يقاس الأداء على مجموعة الاختبار عادةً باستخدام مقاييس ذات صلة بالمهمة، مثل الدقة أو الدقة أو الاستدعاء أو درجة F1 أو متوسط متوسط الدقة (mAP) لاكتشاف الكائنات. توفر هذه المقاييس، المحسوبة على بيانات الاختبار غير المرئية، التقدير الأكثر واقعية لأداء النموذج في الإنتاج. يمكنك معرفة المزيد حول هذه المقاييس في دليل مقاييس أداءYOLO . تسهل المنصات مثل Ultralytics HUB تتبع هذه المقاييس أثناء مرحلة التقييم. تؤكد أفضل ممارسات اختبار النموذج على أهمية خطوة التقييم النهائية هذه.

قراءة الكل