استكشف أسباب التحيز في مجموعات البيانات في مجال الذكاء الاصطناعي وتعلم كيفية التخفيف من الانحراف. اكتشف كيفية استخدام Ultralytics و Ultralytics لتحسين العدالة.
يحدث تحيز مجموعة البيانات عندما تحتوي المعلومات المستخدمة لتدريب نماذج التعلم الآلي (ML) على أخطاء منهجية أو توزيعات منحرفة، مما يؤدي إلى تفضيل نظام الذكاء الاصطناعي الناتج لنتائج معينة على أخرى. نظرًا لأن النماذج تعمل كمحركات للتعرف على الأنماط، فإنها تعتمد كليًا على مدخلاتها؛ إذا كانت بيانات التدريب لا تعكس بدقة تنوع البيئة الواقعية، فسوف يرث النموذج هذه النقاط العمياء. غالبًا ما تؤدي هذه الظاهرة إلى تعميم ضعيف، حيث قد يحقق الذكاء الاصطناعي درجات عالية أثناء الاختبار ولكنه يفشل بشكل كبير عند استخدامه للاستدلال في الوقت الفعلي في سيناريوهات متنوعة أو غير متوقعة .
يمكن أن يتسلل التحيز إلى مجموعة البيانات في عدة مراحل من دورة حياة التطوير، وغالبًا ما ينشأ عن قرارات بشرية أثناء جمع البيانات أو تعليقها.
تأثير تحيز مجموعة البيانات كبير في مختلف الصناعات، لا سيما عندما تتخذ الأنظمة الآلية قرارات ذات مخاطر عالية أو تتفاعل مع العالم المادي.
في صناعة السيارات، تعتمد الذكاء الاصطناعي في السيارات على الكاميرات للتعرف على المشاة والعوائق. إذا تم تدريب سيارة ذاتية القيادة بشكل أساسي على البيانات التي تم جمعها في مناخات مشمسة وجافة، فقد تظهر انخفاضًا في الأداء عند القيادة في الثلج أو الأمطار الغزيرة. هذا مثال كلاسيكي على فشل توزيع التدريب في مطابقة التوزيع التشغيلي، مما يؤدي إلى مخاطر تتعلق بالسلامة.
وبالمثل، في تحليل الصور الطبية، غالبًا ما يتم تدريب نماذج التشخيص على بيانات المرضى التاريخية. إذا تم تدريب نموذج مصمم detect أم detect على مجموعة بيانات تغلب عليها درجات لون البشرة الفاتحة، فقد يظهر دقة أقل بكثير عند تشخيص المرضى ذوي البشرة الداكنة. يتطلب معالجة هذه المشكلة بذل جهود متضافرة لتنظيم مجموعات بيانات متنوعة تضمن الإنصاف في الذكاء الاصطناعي لجميع الفئات السكانية.
يمكن للمطورين تقليل تحيز مجموعات البيانات من خلال استخدام استراتيجيات تدقيق صارمة وتدريب متقدم. تساعد تقنيات مثل زيادة البيانات على تحقيق التوازن في مجموعات البيانات من خلال إنشاء اختلافات مصطنعة للأمثلة غير الممثلة بشكل كافٍ (على سبيل المثال، قلب الصورة أو تدويرها أو تعديل سطوعها). علاوة على ذلك، يمكن أن يؤدي إنشاء بيانات اصطناعية إلى سد الثغرات حيث تكون البيانات الواقعية نادرة أو يصعب جمعها.
من الضروري إدارة مجموعات البيانات هذه بفعالية. تتيح Ultralytics للفرق تصور توزيعات الفئات وتحديد الاختلالات قبل بدء التدريب. بالإضافة إلى ذلك، يساعد الالتزام بإرشادات مثل إطار عمل إدارة مخاطر الذكاء الاصطناعي التابع للمعهد الوطني للمعايير والتكنولوجيا (NIST) المؤسسات على تنظيم نهجها لتحديد هذه المخاطر والتخفيف من حدتها بشكل منهجي.
من المفيد التمييز بين تحيز مجموعة البيانات والمصطلحات المماثلة لفهم مصدر الخطأ:
يوضح المثال التالي كيفية تطبيق زيادة البيانات أثناء التدريب باستخدام YOLO26. من خلال زيادة الزيادات الهندسية، يتعلم النموذج التعميم بشكل أفضل، مما يقلل من التحيز تجاه اتجاهات أو مواقع كائنات معينة موجودة في مجموعة التدريب.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)