Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تحيز مجموعة البيانات

استكشف أسباب التحيز في مجموعات البيانات في مجال الذكاء الاصطناعي وتعلم كيفية التخفيف من الانحراف. اكتشف كيفية استخدام Ultralytics و Ultralytics لتحسين العدالة.

يحدث تحيز مجموعة البيانات عندما تحتوي المعلومات المستخدمة لتدريب نماذج التعلم الآلي (ML) على أخطاء منهجية أو توزيعات منحرفة، مما يؤدي إلى تفضيل نظام الذكاء الاصطناعي الناتج لنتائج معينة على أخرى. نظرًا لأن النماذج تعمل كمحركات للتعرف على الأنماط، فإنها تعتمد كليًا على مدخلاتها؛ إذا كانت بيانات التدريب لا تعكس بدقة تنوع البيئة الواقعية، فسوف يرث النموذج هذه النقاط العمياء. غالبًا ما تؤدي هذه الظاهرة إلى تعميم ضعيف، حيث قد يحقق الذكاء الاصطناعي درجات عالية أثناء الاختبار ولكنه يفشل بشكل كبير عند استخدامه للاستدلال في الوقت الفعلي في سيناريوهات متنوعة أو غير متوقعة .

المصادر الشائعة لانحراف البيانات

يمكن أن يتسلل التحيز إلى مجموعة البيانات في عدة مراحل من دورة حياة التطوير، وغالبًا ما ينشأ عن قرارات بشرية أثناء جمع البيانات أو تعليقها.

  • التحيز في الاختيار: يحدث هذا عندما لا تمثل البيانات المجمعة عشوائياً السكان المستهدفين. على سبيل المثال، إنشاء مجموعة بيانات للتعرف على الوجه باستخدام صور للمشاهير بشكل أساسي قد يؤدي إلى انحراف النموذج نحو المكياج الثقيل والإضاءة الاحترافية، مما يتسبب في فشله في صور كاميرا الويب اليومية.
  • أخطاء التسمية: قد تؤدي الذاتية أثناء تسمية البيانات إلى ظهور تحيز بشري. إذا أخطأ المعلقون باستمرار في تصنيف الكائنات الغامضة بسبب عدم وجود إرشادات واضحة، فإن النموذج يعامل هذه الأخطاء على أنها حقيقة أساسية.
  • تحيز التمثيل: حتى لو تم اختيارها عشوائياً، قد يتم إغراق المجموعات الأقلية إحصائياً من قبل الطبقة الأغلبية. في الكشف عن الأشياء، فإن مجموعة بيانات تحتوي على 10,000 صورة للسيارات ولكن 100 صورة فقط للدراجات ستؤدي إلى نموذج متحيز نحو الكشف عن السيارات.

التطبيقات الواقعية والنتائج المترتبة عليها

تأثير تحيز مجموعة البيانات كبير في مختلف الصناعات، لا سيما عندما تتخذ الأنظمة الآلية قرارات ذات مخاطر عالية أو تتفاعل مع العالم المادي.

في صناعة السيارات، تعتمد الذكاء الاصطناعي في السيارات على الكاميرات للتعرف على المشاة والعوائق. إذا تم تدريب سيارة ذاتية القيادة بشكل أساسي على البيانات التي تم جمعها في مناخات مشمسة وجافة، فقد تظهر انخفاضًا في الأداء عند القيادة في الثلج أو الأمطار الغزيرة. هذا مثال كلاسيكي على فشل توزيع التدريب في مطابقة التوزيع التشغيلي، مما يؤدي إلى مخاطر تتعلق بالسلامة.

وبالمثل، في تحليل الصور الطبية، غالبًا ما يتم تدريب نماذج التشخيص على بيانات المرضى التاريخية. إذا تم تدريب نموذج مصمم detect أم detect على مجموعة بيانات تغلب عليها درجات لون البشرة الفاتحة، فقد يظهر دقة أقل بكثير عند تشخيص المرضى ذوي البشرة الداكنة. يتطلب معالجة هذه المشكلة بذل جهود متضافرة لتنظيم مجموعات بيانات متنوعة تضمن الإنصاف في الذكاء الاصطناعي لجميع الفئات السكانية.

استراتيجيات التخفيف

يمكن للمطورين تقليل تحيز مجموعات البيانات من خلال استخدام استراتيجيات تدقيق صارمة وتدريب متقدم. تساعد تقنيات مثل زيادة البيانات على تحقيق التوازن في مجموعات البيانات من خلال إنشاء اختلافات مصطنعة للأمثلة غير الممثلة بشكل كافٍ (على سبيل المثال، قلب الصورة أو تدويرها أو تعديل سطوعها). علاوة على ذلك، يمكن أن يؤدي إنشاء بيانات اصطناعية إلى سد الثغرات حيث تكون البيانات الواقعية نادرة أو يصعب جمعها.

من الضروري إدارة مجموعات البيانات هذه بفعالية. تتيح Ultralytics للفرق تصور توزيعات الفئات وتحديد الاختلالات قبل بدء التدريب. بالإضافة إلى ذلك، يساعد الالتزام بإرشادات مثل إطار عمل إدارة مخاطر الذكاء الاصطناعي التابع للمعهد الوطني للمعايير والتكنولوجيا (NIST) المؤسسات على تنظيم نهجها لتحديد هذه المخاطر والتخفيف من حدتها بشكل منهجي.

تحيز مجموعة البيانات مقابل المفاهيم ذات الصلة

من المفيد التمييز بين تحيز مجموعة البيانات والمصطلحات المماثلة لفهم مصدر الخطأ:

  • مقابل التحيز الخوارزمي: التحيز في مجموعة البيانات متمركز حول البيانات؛ وهو يعني أن "المكونات" معيبة. التحيز الخوارزمي متمركز حول النموذج؛ وهو ينشأ من تصميم الخوارزمية نفسها أو خوارزمية التحسين، التي قد تعطي الأولوية للفئات الأغلبية لتعظيم المقاييس الإجمالية على حساب الفئات الأقلية.
  • مقابل انحراف النموذج: انحياز مجموعة البيانات هو مشكلة ثابتة موجودة في وقت التدريب. يحدث انحراف النموذج (أو انحراف البيانات) عندما تتغير البيانات الواقعية بمرور الوقت بعد نشر النموذج، مما يتطلب مراقبة مستمرة للنموذج.

مثال على الكود: التعزيز لتقليل التحيز

يوضح المثال التالي كيفية تطبيق زيادة البيانات أثناء التدريب باستخدام YOLO26. من خلال زيادة الزيادات الهندسية، يتعلم النموذج التعميم بشكل أفضل، مما يقلل من التحيز تجاه اتجاهات أو مواقع كائنات معينة موجودة في مجموعة التدريب.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن