مسرد المصطلحات

تحيز مجموعة البيانات

تعرّف على كيفية تحديد وتخفيف تحيز مجموعة البيانات في الذكاء الاصطناعي لضمان وجود نماذج تعلّم آلي عادلة ودقيقة وموثوقة للتطبيقات الواقعية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يحدث تحيز مجموعة البيانات عندما تكون البيانات المستخدمة لتدريب نموذج التعلّم الآلي (ML) غير ممثلة لبيئة العالم الحقيقي حيث سيتم نشر النموذج. يمكن أن يؤدي هذا النقص في التمثيل إلى نتائج منحرفة وأداء ضعيف ونتائج غير عادلة. إنه تحدٍ كبير في مجال الذكاء الاصطناعي، خاصةً في مجالات مثل الرؤية الحاسوبية، حيث تتعلم النماذج الأنماط مباشرةً من البيانات المرئية. إذا كانت مجموعة بيانات التدريب تحتوي على اختلالات أو تعكس تحيزات تاريخية، فمن المحتمل أن يرث نموذج الذكاء الاصطناعي الناتج هذه المشكلات وربما يضخمها، مما يجعل تحيز مجموعة البيانات مصدرًا أساسيًا للتحيز العام في الذكاء الاصطناعي.

مصادر وأنواع التحيز في مجموعة البيانات

إن تحيز مجموعة البيانات ليس مشكلة واحدة ولكن يمكن أن يظهر بعدة طرق أثناء عملية جمع البيانات والتعليق التوضيحي:

  • التحيز في الاختيار: يحدث عندما لا يتم أخذ عينات البيانات بشكل عشوائي، مما يؤدي إلى تمثيل زائد أو ناقص لمجموعات أو سيناريوهات معينة. على سبيل المثال، قد يكون أداء مجموعة بيانات للقيادة الذاتية التي تم تدريبها بشكل أساسي على صور نهارية في الطقس الصافي في الليل أو تحت المطر ضعيفاً.
  • تحيز القياس: ينشأ عن مشاكل في أدوات أو عملية جمع البيانات. على سبيل المثال، قد يؤدي استخدام كاميرات مختلفة الجودة لمجموعات ديموغرافية مختلفة في مجموعة بيانات التعرف على الوجه إلى حدوث تحيز.
  • تحيز التسمية (تحيز الشرح): ينبع من التناقضات أو التحيزات أثناء مرحلة وضع العلامات على البيانات، حيث قد يفسر الشارحون البشريون البيانات أو يضعون عليها علامات مختلفة بناءً على وجهات نظر ذاتية أو تحيزات ضمنية. يمكن أن يلقي استكشاف الأنواع المختلفة من التحيز المعرفي الضوء على العوامل البشرية المحتملة.
  • التحيز التاريخي: يعكس التحيزات المجتمعية الموجودة في العالم، والتي يتم تسجيلها في البيانات. إذا أظهرت البيانات التاريخية أن مجموعات معينة كانت أقل تمثيلاً في أدوار معينة، فإن الذكاء الاصطناعي المدرب على هذه البيانات قد يديم هذا التحيز.

يعد فهم هذه المصادر أمرًا بالغ الأهمية للتخفيف من تأثيرها، كما هو موضح في موارد مثل مدونةUltralytics حول فهم تحيز الذكاء الاصطناعي.

سبب أهمية تحيز مجموعة البيانات

قد تكون عواقب التحيز في مجموعة البيانات وخيمة، مما يؤثر على أداء النموذج والإنصاف المجتمعي:

  • انخفاض الدقة والموثوقية: غالبًا ما تُظهر النماذج المُدربة على بيانات متحيزة دقة أقل عند مواجهة بيانات من مجموعات أو سيناريوهات ناقصة التمثيل. وهذا يحد من قدرة النموذج على التعميم، كما نوقش في دراسات مثل "مجموعات البيانات: المادة الخام للذكاء الاصطناعي".
  • النتائج غير العادلة أو التمييزية: يمكن أن تؤدي النماذج المتحيزة إلى نتائج غير عادلة أو تمييزية لمجموعات معينة، مما يثير مخاوف كبيرة فيما يتعلق بالعدالة في الذكاء الاصطناعي وأخلاقيات الذكاء الاصطناعي. وهذا أمر بالغ الأهمية بشكل خاص في التطبيقات عالية المخاطر مثل التوظيف، والموافقات على القروض، وتشخيص الرعاية الصحية.
  • تعزيز القوالب النمطية: يمكن أن تؤدي أنظمة الذكاء الاصطناعي إلى إدامة القوالب النمطية الضارة عن غير قصد إذا تم تدريبها على بيانات تعكس التحيزات المجتمعية.
  • تآكل الثقة: يمكن أن تتضرر ثقة الجمهور في تقنيات الذكاء الاصطناعي إذا كان يُنظر إلى الأنظمة على أنها غير عادلة أو غير موثوقة بسبب التحيزات الكامنة. تعمل منظمات مثل الشراكة حول الذكاء الاصطناعي ومعهد الذكاء الاصطناعي الآن على معالجة هذه الآثار الاجتماعية الأوسع نطاقاً.

أمثلة من العالم الحقيقي

  1. أنظمة التعرف على الوجه: غالبًا ما كانت مجموعات بيانات التعرّف على الوجه المبكرة تفرط في تمثيل الذكور ذوي البشرة الفاتحة. ونتيجةً لذلك، أظهرت الأنظمة التجارية دقة أقل بكثير بالنسبة للإناث ذوات البشرة الداكنة، كما أبرزت الأبحاث التي أجرتها مؤسسات مثل المعهد الوطني للمعايير والتكنولوجيا ومنظمات مثل رابطة العدالة الخوارزمية. يشكل هذا التفاوت مخاطر في تطبيقات تتراوح بين وضع العلامات على الصور والتحقق من الهوية وإنفاذ القانون.
  2. تحليل الصور الطبية: قد يكون أداء نموذج الذكاء الاصطناعي المُدرَّب على اكتشاف سرطان الجلد باستخدام تحليل الصور الطبية ضعيفًا على ألوان البشرة الداكنة إذا كانت مجموعة بيانات التدريب تتكون أساسًا من صور من مرضى ذوي بشرة فاتحة. يمكن أن يؤدي هذا التحيز إلى تفويت التشخيصات أو تأخيرها بالنسبة لمجموعات المرضى ناقصي التمثيل، مما يؤثر على الذكاء الاصطناعي في مجال الرعاية الصحية.

تمييز تحيز مجموعة البيانات من المفاهيم ذات الصلة

من المهم التفريق بين تحيز مجموعة البيانات والمصطلحات المشابهة:

  • التحيز في الذكاء الاصطناعي: وهو مصطلح واسع يشمل أي خطأ منهجي يؤدي إلى نتائج غير عادلة. يعد التحيز في مجموعة البيانات سببًا رئيسيًا للتحيز في الذكاء الاصطناعي، ولكن يمكن أن ينبع التحيز أيضًا من الخوارزمية نفسها(التحيز الخوارزمي) أو سياق النشر.
  • التحيز الخوارزمي: يشير هذا إلى التحيزات التي تُدخلها بنية النموذج أو عملية التعلم أو أهداف التحسين بغض النظر عن جودة البيانات الأولية. على سبيل المثال، قد تعطي الخوارزمية الأولوية للدقة الإجمالية على حساب إنصاف مجموعات الأقليات.
  • الإنصاف في الذكاء الاصطناعي: وهو هدف أو خاصية لنظام الذكاء الاصطناعي، ويهدف إلى تحقيق المعاملة العادلة بين المجموعات المختلفة. تُعد معالجة تحيز مجموعة البيانات خطوة حاسمة نحو تحقيق الإنصاف، ولكن الإنصاف يتضمن أيضًا تعديلات خوارزمية واعتبارات أخلاقية تحددها أطر عمل مثل إطار عمل إدارة مخاطر الذكاء الاصطناعي NIST.
  • المفاضلة بين التحيز والتباين: هذا مفهوم أساسي في التعلم الآلي يتعلق بتعقيد النموذج. يشير "التحيز" هنا إلى الأخطاء الناجمة عن الافتراضات المفرطة في التبسيط(عدم الملاءمة)، وهي تختلف عن التحيزات المجتمعية أو الإحصائية الموجودة في مجموعات البيانات.

معالجة تحيز مجموعة البيانات

يتطلب التخفيف من تحيّز مجموعة البيانات استراتيجيات استباقية في جميع مراحل سير عمل تعلّم الآلة:

  • جمع البيانات بعناية: السعي للحصول على مصادر بيانات متنوعة وتمثيلية تعكس بيئة النشر المستهدفة. يمكن أن يؤدي توثيق مجموعات البيانات باستخدام أطر عمل مثل أوراق البيانات لمجموعات البيانات إلى تحسين الشفافية.
  • المعالجة المسبقة للبيانات وزيادتها: يمكن أن تساعد تقنيات مثل إعادة أخذ العينات وتوليف البيانات وزيادة البيانات المستهدفة في تحقيق التوازن بين مجموعات البيانات وزيادة التمثيل. تدعم الأدوات داخل منظومة Ultralytics أساليب التعزيز المختلفة.
  • أدوات الكشف عن التحيز: استخدم أدوات مثل أداة What-If منGoogle أو مكتبات مثل Fairlearn لمراجعة مجموعات البيانات والنماذج بحثًا عن التحيزات المحتملة.
  • تقييم النموذج: تقييم أداء النموذج عبر مجموعات فرعية مختلفة باستخدام مقاييس الإنصاف إلى جانب مقاييس الدقة القياسية. توثيق النتائج باستخدام طرق مثل بطاقات النموذج.
  • دعم المنصة: توفر منصات مثل Ultralytics HUB أدوات لإدارة مجموعات البيانات، ونماذج التدريب مثل Ultralytics YOLO11وتسهيل التقييم الدقيق للنماذج، ومساعدة المطورين في بناء أنظمة أقل تحيزًا.

من خلال المعالجة الواعية لتحيز مجموعة البيانات، يمكن للمطورين إنشاء أنظمة ذكاء اصطناعي أكثر قوة وموثوقية وإنصافًا. ويمكن الاطلاع على مزيد من الأفكار في استطلاعات الرأي البحثية مثل "استبيان حول التحيز والإنصاف في التعلم الآلي" والمناقشات التي دارت في مؤتمرات مثل ACM FAccT.

قراءة الكل