مسرد المصطلحات

تحيز مجموعة البيانات

تعرّف على كيفية تحديد وتخفيف تحيز مجموعة البيانات في الذكاء الاصطناعي لضمان وجود نماذج تعلّم آلي عادلة ودقيقة وموثوقة للتطبيقات الواقعية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يُعد التحيز في مجموعة البيانات مشكلة حرجة في التعلم الآلي (ML) حيث تفشل البيانات المستخدمة لتدريب نموذج ما بشكل منهجي في تمثيل تنوع وتعقيد بيئة العالم الحقيقي حيث سيتم نشر النموذج. ينشأ هذا التباين من عيوب في عمليات جمع البيانات أو أخذ العينات أو التعليقات التوضيحية. وبالتالي، قد يكون أداء النماذج التي تم تدريبها على مجموعات بيانات متحيزة جيدًا في مقاييس التقييم باستخدام بيانات متشابهة، ولكنها تُظهر تعميمًا ضعيفًا وعدم دقة وعدم عدالة عند تطبيقها على بيانات جديدة غير مرئية أو على مجموعات سكانية مختلفة. تُعد معالجة تحيز مجموعة البيانات أمرًا ضروريًا لبناء أنظمة ذكاء اصطناعي موثوقة وفعالة ومنصفة، كما هو موضح في المناقشات حول التحيز في الذكاء الاصطناعي.

أنواع تحيز مجموعة البيانات

يمكن أن تتسلل عدة أشكال من التحيز إلى مجموعات البيانات، مما يؤدي إلى نتائج نموذجية منحرفة. إن فهم هذه الأنواع هو الخطوة الأولى نحو التخفيف من حدتها:

  • التحيز الانتقائي: يحدث عندما تفضل عملية جمع البيانات مجموعات فرعية معينة من البيانات على مجموعات فرعية أخرى، مما يؤدي إلى عينة غير تمثيلية. على سبيل المثال، قد يؤدي جمع بيانات حركة المرور خلال ساعات محددة فقط إلى إغفال أنماط من أوقات أخرى.
  • التحيز في أخذ العينات: نوع محدد من التحيز في الاختيار حيث لا تعكس العينة التي تم جمعها بدقة نسب السكان المستهدفين. وغالباً ما يتسبب استخدام أساليب غير عشوائية لأخذ العينات في حدوث ذلك.
  • تحيز القياس: ينشأ من عدم الدقة أو التناقضات أثناء مرحلة قياس البيانات أو الشرح. قد ينطوي ذلك على أجهزة استشعار معيبة أو تناقضات ذاتية في تصنيف البيانات التي يقوم بها الشارحون المختلفون.
  • تحيز التسمية: يحدث عندما تكون التسميات المخصصة لنقاط البيانات غير موضوعية أو غير متسقة أو تعكس تحيزات ضمنية للمشرحين والتي قد تتأثر بعوامل مثل تفسير التحيز التأكيدي.
  • التحيز التمثيلي: يحدث عندما لا تمثل مجموعة البيانات مجموعات أو سمات معينة موجودة في العالم الحقيقي، مما يؤدي إلى ضعف أداء النموذج بالنسبة لتلك المجموعات.

أمثلة من العالم الحقيقي لتحيز مجموعة البيانات

يمكن أن يكون لتحيز مجموعة البيانات عواقب كبيرة في العالم الحقيقي عبر مختلف التطبيقات:

  1. أنظمة التعرف على الوجوه: تم تدريب العديد من الأنظمة المبكرة للتعرف على الوجوه على مجموعات بيانات تضم في الغالب وجوه ذكور ذوي بشرة فاتحة. نتيجة لذلك، غالبًا ما أظهرت هذه الأنظمة دقة أقل بكثير عند التعرف على الأفراد ذوي البشرة الداكنة أو الوجوه الأنثوية، كما هو موثق في دراسة المعهد الوطني للمعايير والتكنولوجيا والابتكار حول التأثيرات الديموغرافية في التعرف على الوجه.
  2. تحليل الصور الطبية: قد يتم تدريب نموذج ذكاء اصطناعي مصمم للكشف عن سرطان الجلد بشكل أساسي على صور من أفراد ذوي بشرة فاتحة. إذا تم نشره على مجموعة متنوعة من السكان، فقد يفشل في الكشف بدقة عن الأورام الخبيثة لدى الأفراد ذوي البشرة الداكنة بسبب عدم وجود صور تمثيلية في بيانات التدريب، مما يسلط الضوء على قضايا التحيز في أبحاث الذكاء الاصطناعي الطبية ويؤثر على فعالية الذكاء الاصطناعي في مجال الرعاية الصحية.

تحديد التحيز في مجموعة البيانات والتخفيف من حدته

يتضمن اكتشاف التحيز في مجموعة البيانات تحليلاً دقيقًا لمصدر البيانات وطرق جمعها وتوزيع السمات والتسميات. وتشمل الأساليب تحليل البيانات الاستكشافية، والاختبارات الإحصائية التي تقارن أداء المجموعات الفرعية، وتصور البيانات لاكتشاف الاختلالات.

وبمجرد تحديدها، تشمل استراتيجيات التخفيف من حدة المخاطر ما يلي:

  • جمع بيانات أكثر تمثيلاً: توسيع نطاق جهود جمع البيانات لتشمل المجموعات والسيناريوهات الممثلة تمثيلاً ناقصاً.
  • زيادة البيانات: يمكن أن يساعد تطبيق تقنيات مثل تدوير الصور أو اقتصاصها أو تغيير لونها باستخدام أدوات مدمجة مع نماذج مثل Ultralytics YOLO في زيادة تنوع البيانات، كما هو مفصّل في مسرد مصطلحات زيادة البيانات.
  • تقنيات إعادة أخذ العينات: تعديل مجموعة البيانات عن طريق أخذ عينات زائدة من فئات الأقلية أو عينات ناقصة من فئات الأغلبية.
  • تقنيات الإنصاف الخوارزمية: تطبيق الخوارزميات المصممة لتعزيز الإنصاف أثناء تدريب النموذج أو المعالجة اللاحقة. توفر أدوات مثل مجموعة أدوات الإنصاف 360 للذكاء الاصطناعي (IBM Research) موارد لهذا الغرض.
  • استخدام مجموعات بيانات معيارية متنوعة: تقييم النماذج على مجموعات بيانات معي ارية موحدة معروفة بتنوعها.

المفاهيم ذات الصلة

يرتبط تحيز مجموعة البيانات ارتباطًا وثيقًا بالعديد من المفاهيم المهمة الأخرى في الذكاء الاصطناعي:

  • التحيز الخوارزمي: بينما ينبع التحيز الخوارزمي من البيانات، ينشأ التحيز الخوارزمي من تصميم النموذج أو عملية التعلم، مما قد يؤدي إلى تضخيم التحيزات الموجودة أو إدخال تحيزات جديدة.
  • الإنصاف في الذكاء الاصطناعي: يركز هذا المجال على تطوير أنظمة الذكاء الاصطناعي التي تعامل الأفراد والمجموعات بإنصاف، وغالبًا ما يتضمن قياس مجموعة البيانات والتحيزات الخوارزمية والتخفيف من حدتها.
  • أخلاقيات الذكاء الاصطناعي: يعد التحيز في مجموعة البيانات مصدر قلق أخلاقي رئيسي، حيث يمكن أن تؤدي النماذج المتحيزة إلى إدامة التمييز والضرر. توجه الأطر الأخلاقية الأوسع نطاقًا عملية تطوير الذكاء الاصطناعي المسؤول، والتي تدعو إليها منظمات مثل الشراكة في الذكاء الاصطناعي (PAI).
  • الذكاء الاصطناعي القابل للتفسير (XAI): يمكن أن تساعد التقنيات التي تجعل تنبؤات النموذج أكثر شفافية في تحديد ما إذا كانت التحيزات في مجموعة البيانات تؤثر على النتائج.

إن فهم التحيز في مجموعة البيانات ومعالجته بشكل استباقي، كما نوقش في موارد مثل مدونة فهم تحيز الذكاء الاصطناعي وممارسات الذكاء الاصطناعي المسؤول منGoogle أمر بالغ الأهمية لإنشاء أنظمة ذكاء اصطناعي جديرة بالثقة. تواصل الأبحاث والموارد من كيانات مثل موارد الذكاء الاصطناعي المسؤول من Microsoft ومؤتمر ACM حول الإنصاف والمساءلة والشفافية (FAccT) تطوير أساليب معالجة هذا التحدي.

قراءة الكل