إتقان المفاضلة بين التحيّز والتباين في التعلّم الآلي. تعلم تقنيات الموازنة بين الدقة والتعميم لتحقيق الأداء الأمثل للنموذج!
تعد مقايضة التحيز والتباين مفهومًا أساسيًا في التعلم الآلي الخاضع للإشراف، وهو مفهوم يصف التوتر بين قدرة النموذج على تقليل الأخطاء الناجمة عن الافتراضات غير الصحيحة (التحيز) وحساسيته للتغيرات في بيانات التدريب (التباين). يعد إيجاد التوازن الصحيح أمرًا بالغ الأهمية لبناء نماذج تعمم بشكل جيد على البيانات الجديدة غير المرئية. فالنموذج ذو التحيز المرتفع لا يولي اهتمامًا كبيرًا لبيانات التدريب ويبالغ في تبسيط الأنماط الأساسية، في حين أن النموذج ذو التباين المرتفع يولي اهتمامًا كبيرًا جدًا، ويحفظ بيانات التدريب بشكل أساسي، بما في ذلك الضوضاء.
يمثل التحيز الخطأ الناتج عن تقريب مشكلة واقعية، والتي قد تكون معقدة، من خلال نموذج أبسط بكثير. يمكن أن يؤدي التحيز المرتفع إلى فقدان الخوارزمية للعلاقات ذات الصلة بين السمات والمخرجات المستهدفة، مما يؤدي إلى ظاهرة تسمى عدم الملاءمة. يكون أداء النموذج غير الملائم ضعيفًا على كل من بيانات التدريب وبيانات الاختبار غير المرئية لأنه يفشل في التقاط الاتجاه الأساسي. وغالبًا ما تُظهر النماذج البسيطة، مثل الانحدار الخطي المطبق على بيانات غير خطية للغاية، تحيزًا كبيرًا. عادةً ما تتضمن تقنيات تقليل التحيز زيادة تعقيد النموذج، مثل إضافة المزيد من الميزات أو استخدام خوارزميات أكثر تطوراً مثل تلك الموجودة في التعلم العميق (DL).
يمثل التباين حساسية النموذج للتقلبات في بيانات التدريب. إنه المقدار الذي سيتغير به تنبؤ النموذج إذا قمنا بتدريبه على مجموعة بيانات تدريب مختلفة. يمكن أن يؤدي التباين المرتفع إلى قيام الخوارزمية بنمذجة الضوضاء العشوائية في بيانات التدريب، بدلاً من المخرجات المقصودة، مما يؤدي إلى الإفراط في التكييف. يؤدي النموذج المُفرط في التكييف أداءً جيدًا للغاية على بيانات التدريب، ولكنه يؤدي أداءً سيئًا على بيانات الاختبار غير المرئية لأنه لا يعمم. تكون النماذج المعقدة، مثل الشبكات العصبية العميقة ذات الطبقات المتعددة أو الانحدار متعدد الحدود عالي الدرجة، عرضة للتباين العالي. غالبًا ما يتضمن تقليل التباين تبسيط النموذج، أو استخدام المزيد من بيانات التدريب، أو تطبيق تقنيات التنظيم.
من الناحية المثالية، نريد نموذجًا ذا انحياز منخفض وتباين منخفض. ومع ذلك، فإن مصدري الخطأ هذين غالبًا ما يكونان مرتبطين عكسيًا: يميل التحيز المنخفض إلى زيادة التباين، والعكس صحيح. عادةً ما تقلل زيادة تعقيد النموذج من التحيز ولكنها تزيد من التباين. وعلى العكس من ذلك، فإن تقليل تعقيد النموذج يزيد من التحيز ولكنه يقلل من التباين. الهدف هو العثور على المستوى الأمثل لتعقيد النموذج الذي يقلل من الخطأ الكلي (مجموع مربع التحيز والتباين والخطأ غير القابل للاختزال) على البيانات غير المرئية. يتضمن هذا موازنة التحيز والتباين بعناية، وغالبًا ما يتم تصورها على شكل منحنى على شكل حرف U للخطأ الكلي مقابل تعقيد النموذج، كما هو موضح في مصادر مثل "عناصر التعلم الإحصائي".
تساعد العديد من التقنيات في إدارة المفاضلة بين التحيز والتباين:
من المهم التمييز بين المفاضلة بين التحيز والتباين وأشكال التحيز الأخرى في الذكاء الاصطناعي:
في حين تركز مفاضلة التحيز/التباين على خطأ تعميم النموذج الناشئ عن تعقيد النموذج وحساسية البيانات، فإن تحيز الذكاء الاصطناعي وتحيز مجموعة البيانات يتعلقان بقضايا العدالة والتمثيل. تهدف إدارة المفاضلة إلى تحسين مقاييس الأداء التنبؤي مثل الدقة أو متوسط الدقة (mAP)، بينما تهدف معالجة تحيز الذكاء الاصطناعي/مجموعة البيانات إلى ضمان نتائج عادلة. يمكنك معرفة المزيد حول مقاييس الأداء في دليل مقاييس أداءYOLO .