مسرد المصطلحات

بيانات التدريب

اكتشف أهمية بيانات التدريب في الذكاء الاصطناعي. تعلّم كيف تعمل مجموعات البيانات عالية الجودة على تشغيل نماذج تعلّم آلي دقيقة وقوية لمهام العالم الحقيقي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

في مجالات الذكاء الاصطناعي والتعلم الآلي (AI) ، تُعد بيانات التدريب العنصر الأساسي المستخدم لتعليم النماذج كيفية أداء المهام. وهي تتألف من مجموعة بيانات تحتوي على العديد من الأمثلة، حيث يقرن كل مثال بين المدخلات والمخرجات أو التسمية المطلوبة. ومن خلال معالجة هذه البيانات، عادةً من خلال خوارزميات التعلُّم الخاضع للإشراف، يتعلم النموذج تحديد الأنماط والعلاقات والميزات، مما يمكّنه من إجراء تنبؤات أو اتخاذ قرارات بشأن البيانات الجديدة غير المرئية.

ما هي بيانات التدريب؟

تعمل بيانات التدريب كمادة تعليمية لنموذج الذكاء الاصطناعي. وهي عبارة عن مجموعة منسقة من المعلومات المنسقة خصيصًا لتكون بمثابة أمثلة لعملية التعلم. على سبيل المثال، في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، تشتمل بيانات التدريب على صور أو إطارات فيديو(ميزات الإدخال) إلى جانب شروح تشير إلى موقع وفئة الأجسام داخلها (تسميات). تُعرف عملية إنشاء هذه التسميات باسم تسمية البيانات. يقوم النموذج بتعديل معلماته الداخلية بشكل متكرر بناءً على هذه البيانات لتقليل الفرق بين تنبؤاته والتسميات المقدمة.

أهمية بيانات التدريب

تحدد جودة بيانات التدريب وكميتها وتنوعها بشكل مباشر أداء النموذج وقدرته على التعميم على سيناريوهات العالم الحقيقي(التعميم في التعلم الآلي). تساعد البيانات التمثيلية عالية الجودة في بناء نماذج قوية وتحقق دقة عالية. يمكن أن تؤدي البيانات غير الكافية أو المتحيزة إلى ضعف الأداء، أو الإفراط في التعميم (حيث يتعلم النموذج بيانات التدريب بشكل جيد للغاية ولكنه يفشل في البيانات الجديدة)، أو نتائج غير عادلة بسبب تحيز مجموعة البيانات. لذلك، فإن الجمع الدقيق لبيانات التدريب وإعدادها بعناية هي خطوات حاسمة في أي مشروع ذكاء اصطناعي.

أمثلة على بيانات التدريب في تطبيقات العالم الحقيقي

تغذي بيانات التدريب عدداً لا يحصى من تطبيقات الذكاء الاصطناعي. فيما يلي مثالان:

  1. المركبات ذاتية القيادة: نماذج مثل Ultralytics YOLO المستخدمة في الذكاء الاصطناعي في السيارات ذاتية القيادة يتم تدريبها على مجموعات بيانات ضخمة تحتوي على صور وبيانات مستشعرات من مختلف ظروف القيادة. يتم تصنيف هذه البيانات بدقة باستخدام مربعات محددة أو أقنعة تجزئة للأشياء مثل المركبات والمشاة وراكبي الدراجات وإشارات المرور، وغالباً ما يتم ذلك باستخدام مجموعات بيانات عامة كبيرة مثل مجموعة بيانات COCO.
  2. معالجة اللغة الطبيعية: بالنسبة لمهام مثل تحليل المشاعر (ويكيبيديا)، تتكون بيانات التدريب من عينات نصية (على سبيل المثال، مراجعات المنتجات، ومنشورات وسائل التواصل الاجتماعي) مصنفة بمشاعر مثل "إيجابي" أو "سلبي" أو "محايد". يتعلم النموذج ربط الأنماط اللغوية بتسميات المشاعر هذه.

جودة البيانات وإعدادها

يتضمن ضمان الحصول على بيانات تدريب عالية الجودة عدة عمليات رئيسية:

  • جمع البيانات: جمع البيانات ذات الصلة التي تعكس بدقة مجال المشكلة.
  • تنظيف البيانات (ويكيبيديا): تحديد وتصحيح الأخطاء أو التناقضات أو القيم المفقودة في مجموعة البيانات.
  • توسيم البيانات: توسيم البيانات بدقة مع المخرجات أو الأهداف الصحيحة.
  • تعزيز البيانات: توسيع مجموعة البيانات بشكل مصطنع عن طريق إنشاء نسخ معدلة من البيانات الموجودة (على سبيل المثال، تدوير الصور، وتغيير السطوع) لتحسين متانة النموذج.

بيانات التدريب مقابل بيانات التحقق من الصحة وبيانات الاختبار

على الرغم من أن مجموعات البيانات هذه غالبًا ما تتم مناقشتها معًا، إلا أنها تخدم أغراضًا مختلفة:

  • بيانات التدريب: تُستخدم لتدريب النموذج من خلال تعديل معلماته (الأوزان).
  • بيانات التحقق من الصحة: تُستخدم بشكل دوري أثناء التدريب لتقييم أداء النموذج على البيانات غير المرئية ولضبط المعلمات الفائقة(Hyperparameter Optimization) دون إدخال تحيز من مجموعة الاختبار.
  • بيانات الاختبار: تُستخدم فقط بعد اكتمال تدريب النموذج لتوفير تقييم نهائي غير متحيز لأداء النموذج على بيانات جديدة تمامًا.

ويُعد الفصل بين مجموعات البيانات هذه بشكل صحيح أمرًا بالغ الأهمية لتطوير نماذج موثوقة وتقييم قدراتها في العالم الحقيقي بدقة. تساعد منصات مثل Ultralytics HUB في إدارة مجموعات البيانات هذه بفعالية خلال دورة حياة تطوير النموذج.

قراءة الكل