بيانات الاختبار
اكتشف أهمية بيانات الاختبار في الذكاء الاصطناعي، ودورها في تقييم أداء النموذج، واكتشاف الإفراط في التكييف، وضمان الموثوقية في العالم الحقيقي.
في التعلّم الآلي، بيانات الاختبار هي جزء منفصل ومستقل من مجموعة بيانات تُستخدم للتقييم النهائي للنموذج بعد تدريبه وضبطه بالكامل. تعمل مجموعة البيانات هذه بمثابة "اختبار نهائي" للنموذج، مما يوفر تقييمًا غير متحيز لأدائه على بيانات جديدة غير مرئية. المبدأ الأساسي هو أن النموذج يجب ألا يتعلم من بيانات الاختبار أو يتأثر بها أثناء تطويره. يضمن هذا الفصل الصارم أن مقاييس الأداء المحسوبة على مجموعة الاختبار، مثل الدقة أو متوسط الدقة (mAP)، هي انعكاس حقيقي لقدرة النموذج على التعميم على سيناريوهات العالم الحقيقي. يعد الاختبار الصارم للنموذج خطوة حاسمة قبل نشر النموذج.
دور بيانات الاختبار في دورة حياة تعلّم الآلة
في مشروع التعلم الآلي النموذجي (ML) ، يتم تقسيم البيانات بعناية لخدمة أغراض مختلفة. يعد فهم التمييز بين هذه الأقسام أمرًا أساسيًا.
- بيانات التدريب: هذه هي أكبر مجموعة فرعية من البيانات، وتُستخدم لتعليم النموذج. يتعلم النموذج بشكل متكرر الأنماط والسمات والعلاقات من خلال تعديل أوزانه الداخلية بناءً على الأمثلة الموجودة في مجموعة التدريب. يعتمد الإنشاء الفعال للنموذج على بيانات تدريب عالية الجودة واتباع أفضل الممارسات مثل تلك الموجودة في دليل نصائح تدريب النماذج هذا.
- بيانات التحقق من الصحة: هذه مجموعة بيانات منفصلة تُستخدم أثناء عملية التدريب. والغرض منها هو تقديم ملاحظات حول أداء النموذج على البيانات غير المرئية، مما يساعد في ضبط المعامل الفائق (على سبيل المثال، ضبط معدل التعلم) ومنع الإفراط في التكييف. إنه بمثابة اختبار تدريبي يساعد في توجيه استراتيجية التعلم. غالبًا ما يتم إجراء التقييم باستخدام وضع تحقق مخصص.
- بيانات الاختبار: يتم الاحتفاظ بمجموعة البيانات هذه معزولة تمامًا حتى يتم الانتهاء من جميع عمليات التدريب والتحقق من الصحة. يتم استخدامها مرة واحدة فقط لتقديم تقرير نهائي غير متحيز عن أداء النموذج. إن استخدام بيانات الاختبار لإجراء أي تعديلات أخرى على النموذج من شأنه أن يبطل النتائج، وهو خطأ يُشار إليه أحيانًا باسم "تسريب البيانات" أو "التدريس للاختبار". هذا التقييم النهائي ضروري لفهم كيفية أداء النموذج، مثل نموذج Ultralytics YOLO، بعد النشر. يمكن أن تساعد أدوات مثل Ultralytics HUB في إدارة مجموعات البيانات هذه طوال دورة حياة المشروع.
في حين أن مجموعة البيانات المعيارية يمكن أن تكون بمثابة مجموعة اختبار، فإن دورها الأساسي هو العمل كمعيار عام لمقارنة النماذج المختلفة، وغالبًا ما تُستخدم في التحديات الأكاديمية مثل تحدي التعرف البصري واسع النطاق ImageNet (ILSVRC). يمكنك الاطلاع على أمثلة على ذلك في صفحات مقارنة النماذج.
التطبيقات الواقعية
- الذكاء الاصطناعي في السيارات: ينشئ أحد المطورين نموذجاً للكشف عن الأجسام لمركبة ذاتية القيادة باستخدام آلاف الساعات من لقطات القيادة للتدريب والتحقق من صحتها. قبل نشر هذا النموذج في أسطول من السيارات، يتم تقييمه مقابل مجموعة بيانات اختبارية. قد تتضمن مجموعة الاختبار هذه سيناريوهات صعبة لم يسبق لها مثيل مثل القيادة ليلاً تحت المطر الغزير، أو التنقل خلال عاصفة ثلجية، أو اكتشاف المشاة المحجوبين جزئياً بأجسام أخرى. ويحدد أداء النموذج على مجموعة الاختبار هذه، باستخدام بيانات من معايير مثل nuScenes، ما إذا كان يفي بمعايير السلامة والموثوقية الصارمة المطلوبة للذكاء الاصطناعي في تطبيقات السيارات.
- تحليل الصور الطبية: يتم تدريب نموذج الرؤية الحاسوبية (CV) على اكتشاف علامات الالتهاب الرئوي من صور الأشعة السينية للصدر المأخوذة من أحد المستشفيات. ولضمان فائدته السريرية، يجب اختبار النموذج على مجموعة بيانات من الصور من نظام مستشفى مختلف. ستشمل بيانات الاختبار هذه صورًا تم التقاطها بأجهزة مختلفة، من مجموعة متنوعة من المرضى، وتم تفسيرها من قبل أخصائيي أشعة مختلفين. إن تقييم أداء النموذج على مجموعة الاختبارات الخارجية هذه أمر بالغ الأهمية للحصول على موافقة الجهات التنظيمية، مثل إدارة الغذاء والدواء الأمريكية، وتأكيد فائدته للذكاء الاصطناعي في مجال الرعاية الصحية. تساعد هذه العملية على ضمان تجنب النموذج التحيز في مجموعة البيانات وأداءه بشكل موثوق في الإعدادات السريرية الجديدة.