Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

بيانات الاختبار

اكتشف الدور الحيوي لبيانات الاختبار في التعلم الآلي. تعرف على كيفية تقييم أداء Ultralytics باستخدام مجموعات بيانات غير متحيزة لضمان الدقة في العالم الواقعي.

بيانات الاختبار هي مجموعة فرعية محددة من مجموعة بيانات أكبر مخصصة حصريًا لتقييم الأداء النهائي لنموذج التعلم الآلي (ML). على عكس البيانات المستخدمة خلال مراحل التعلم السابقة، تظل بيانات الاختبار "غير مرئية" تمامًا للخوارزمية حتى نهاية دورة التطوير. هذا العزل مهم للغاية لأنه يوفر تقييمًا غير متحيز لمدى جودة نموذج الرؤية الحاسوبية (CV) أو أي نظام ذكاء اصطناعي آخر في تعميم المدخلات الجديدة الواقعية. من خلال محاكاة بيئة الإنتاج، تساعد بيانات الاختبار المطورين على التحقق من أن نموذجهم قد تعلم بالفعل الأنماط الأساسية بدلاً من مجرد حفظ أمثلة التدريب .

دور بيانات الاختبار في دورة حياة تعلم الآلة

في سير عمل التعلم الآلي القياسي، يتم تقسيم البيانات عادةً إلى ثلاث فئات متميزة، كل منها يخدم غرضًا فريدًا. إن فهم التمييز بين هذه الفئات أمر بالغ الأهمية لبناء أنظمة ذكاء اصطناعي قوية.

  • بيانات التدريب: هذا هو الجزء الأكبر من مجموعة البيانات، ويستخدم لتدريب النموذج. تقوم الخوارزمية بتعديل معلماتها الداخلية، أو الأوزان، بشكل متكرر لتقليل الأخطاء في هذه المجموعة المحددة من الأمثلة.
  • بيانات التحقق: تُستخدم هذه المجموعة الفرعية بشكل متكرر أثناء عملية التدريب لضبط المعلمات الفائقة وتوجيه قرارات البنية . وهي تعمل كفحص مؤقت لمنع التكيف المفرط، حيث يعمل النموذج بشكل جيد على بيانات التدريب ولكنه يفشل في التعامل مع البيانات الجديدة.
  • بيانات الاختبار: هذا هو "الامتحان" النهائي للنموذج. لا يتم استخدامه أبدًا لتحديث الأوزان أو ضبط الإعدادات. ينتج عن تقييم بيانات الاختبار مقاييس أداء نهائية، مثل الدقة، الاسترجاع، و متوسط الدقة (mAP)، والتي يستخدمها أصحاب المصلحة لتقرير ما إذا كان النموذج جاهزًا لنشر النموذج.

غالبًا ما يتم تسهيل الإدارة السليمة لهذه الانقسامات بواسطة أدوات مثل Ultralytics ، التي يمكنها تنظيم مجموعات البيانات التي تم تحميلها تلقائيًا في هذه الفئات الأساسية لضمان تقييم دقيق للنموذج.

أهمية التقييم غير المتحيز

تكمن القdetect الأساسية لبيانات الاختبار في قدرتها على اكتشاف مشكلات التحيز والتباين في مجموعة البيانات. إذا حقق النموذج دقة بنسبة 99٪ في بيانات التدريب ولكن 60٪ فقط في بيانات الاختبار، فهذا يشير إلى تباين كبير (مبالغة في الملاءمة). على العكس من ذلك، يشير الأداء الضعيف في كلا الحالتين إلى عدم كفاية الملاءمة.

يتم الالتزام بالمبادئ العلمية للقابلية للتكرار والموضوعية عند استخدام مجموعة اختبار محددة. بدون مجموعة اختبار نقية، يخاطر المطورون بـ "التدريس من أجل الاختبار"، مما يؤدي فعليًا إلى تسريب المعلومات من مرحلة التقييم إلى مرحلة التدريب - وهي ظاهرة تُعرف باسم تسرب البيانات. وينتج عن ذلك تقديرات أداء مفرطة في التفاؤل تتلاشى عندما يواجه النموذج بيانات العالم الحقيقي.

تطبيقات واقعية

تعد بيانات الاختبار ضرورية في جميع الصناعات التي تستخدم الذكاء الاصطناعي لضمان السلامة والموثوقية قبل تشغيل الأنظمة.

  • القيادة الذاتية: في تطوير المركبات الذاتية، قد تتكون بيانات التدريب من ملايين الأميال المقطوعة على الطرق السريعة في طقس صافٍ. ومع ذلك، يجب أن تتضمن بيانات الاختبار سيناريوهات نادرة وصعبة — مثل الثلوج الكثيفة أو العوائق المفاجئة أو إشارات الطرق المربكة — التي لم تشاهدها السيارة بشكل صريح أثناء التدريب. وهذا يضمن أن نظام الكشف عن الأجسام يمكنه الاستجابة بأمان في بيئات غير متوقعة.
  • التشخيصات الطبية: عند بناء نموذج للكشف عن الأورام في التصوير الطبي، قد تأتي مجموعة التدريب من قاعدة بيانات مستشفى معين. للتحقق من أن النموذج قوي وآمن للاستخدام العام، يجب أن تتألف بيانات الاختبار بشكل مثالي من فحوصات من مستشفيات مختلفة، تم إجراؤها باستخدام أجهزة مختلفة، وتمثل مجموعة متنوعة من المرضى. يؤكد هذا التحقق الخارجي أن الذكاء الاصطناعي ليس متحيزًا نوعًا معينًا من المعدات أو السكان.

تقييم الأداء باستخدام الكود

استخدام ultralytics الحزمة، يمكنك بسهولة تقييم أداء النموذج على مجموعة بيانات محفوظة. في حين أن ال val غالبًا ما يستخدم الوضع للتحقق من الصحة أثناء التدريب، ويمكن أيضًا تهيئته للتشغيل على تقسيم اختبار محدد مُعرّف في تكوين YAML لمجموعة البيانات.

فيما يلي كيفية تقييم نموذج YOLO26 المدرب مسبقًا للحصول على مقاييس مثل mAP50:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")

# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")

تنتج هذه العملية مقاييس شاملة، مما يسمح للمطورين بمقارنة مختلف البنى بشكل موضوعي، مثل YOLO26 مقابل YOLO11 والتأكد من أن الحل المختار يلبي الأهداف المحددة للمشروع. الاختبار الدقيق هو الخطوة الأخيرة في ضمان تلبية معايير السلامة العالية للذكاء الاصطناعي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن