F1-Score هو مقياس يُستخدم على نطاق واسع في التعلم الآلي (ML) واسترجاع المعلومات لتقييم أداء نماذج التصنيف الثنائية. وهو يوفر درجة واحدة توازن بين مقياسين مهمين آخرين: الدقة والاسترجاع. هذا التوازن يجعل النتيجة F1-Score ذات قيمة خاصة في الحالات التي يكون فيها توزيع الفئات غير متساوٍ (مجموعات بيانات غير متوازنة) أو عندما تكون النتائج الإيجابية الخاطئة والسلبية الخاطئة ذات تكاليف كبيرة. يتم احتسابها كمتوسط توافقي للدقة والاستدعاء، مما يعطيها نطاقًا يتراوح بين 0 و1، حيث يشير الرقم 1 إلى الدقة والاستدعاء الكاملين.
فهم الدقة والاسترجاع
لفهم نتيجة F1-Score، من الضروري فهم مكوناتها:
- الدقة: يقيس دقة التنبؤات الإيجابية. يجيب على السؤال: "من بين جميع الحالات التي تنبأ النموذج بأنها إيجابية، كم عدد الحالات التي كانت إيجابية بالفعل؟ الدقة العالية تعني أن النموذج يرتكب القليل من الأخطاء الإيجابية الخاطئة.
- التذكر (الحساسية): يقيس قدرة النموذج على تحديد جميع الحالات الإيجابية الفعلية. يجيب على السؤال: "من بين جميع الحالات الإيجابية الفعلية، كم عدد الحالات الإيجابية الفعلية التي حددها النموذج بشكل صحيح؟ يعني الاستدعاء العالي أن النموذج يرتكب القليل من الأخطاء السلبية الخاطئة.
تجمع F1-Score بين هذين الاثنين من خلال حساب المتوسط التوافقي. على عكس المتوسط البسيط، يعاقب المتوسط التوافقي القيم المتطرفة بشكل أكبر، مما يعني أن النموذج يجب أن يحقق أداءً جيدًا بشكل معقول في كل من الدقة والاستدعاء لتحقيق درجة F1- Score عالية.
لماذا نستخدم نتيجة F1-Score؟
على الرغم من أن الدقة (نسبة التنبؤات الصحيحة بشكل عام) هي مقياس شائع، إلا أنها قد تكون مضللة خاصةً مع مجموعات البيانات غير المتوازنة. على سبيل المثال، إذا كانت نسبة 1% فقط من نقاط البيانات تنتمي إلى الفئة الإيجابية، فإن النموذج الذي يتنبأ بكل شيء على أنه سلبي يحقق دقة بنسبة 99% ولكنه يفشل تمامًا في تحديد الفئة الإيجابية.
تعالج F1-Score هذا الأمر من خلال التركيز على الأداء الإيجابي للفئة من خلال الدقة والاستدعاء. يُفضَّل ذلك عندما
- اختلال التوازن الطبقي موجود: يوفر تقييماً أفضل من الدقة عندما تتفوق إحدى الفئتين على الأخرى بشكل كبير.
- كل من الإيجابيات الكاذبة والسلبيات الكاذبة مهمة: تستفيد السيناريوهات التي يكون فيها تقليل كلا النوعين من الأخطاء أمرًا حاسمًا من عملية الموازنة التي تقوم بها F1-Score. غالبًا ما ينطوي الاختيار بين تحسين الدقة أو الاستدعاء على مفاضلة؛ وتساعد F1-Score في إيجاد نموذج يوازن بين الدقة والاستدعاء.
F1-Score أثناء العمل: أمثلة من العالم الحقيقي
تُعد F1-Score أمرًا بالغ الأهمية في العديد من تطبيقات الذكاء الاصطناعي (AI):
تحليل الصور الطبية للكشف عن الأمراض: النظر في نموذج ذكاء اصطناعي مصمم للكشف عن الأورام السرطانية من عمليات المسح باستخدام الرؤية الحاسوبية.
- يعني التذكر السلبي الكاذب (التذكر المنخفض) الفشل في اكتشاف السرطان عند وجوده، وهو ما قد يكون له عواقب وخيمة على المريض.
- تعني الإيجابية الكاذبة (الدقة المنخفضة) تشخيص السرطان في حين أنه غير موجود، مما يؤدي إلى إجهاد وتكلفة غير ضرورية وإجراء المزيد من الاختبارات الجراحية.
- تساعد F1-Score في تقييم النماذج مثل تلك المستخدمة في حلول الرعاية الصحية بالذكاء الاصطناعي من خلال ضمان التوازن بين اكتشاف الحالات الفعلية (الاستدعاء) وتجنب التشخيص الخاطئ (الدقة). قد يتضمن تدريب مثل هذه النماذج مجموعات بيانات مثل مجموعة بيانات الكشف عن أورام الدماغ.
تصفية البريد الإلكتروني غير المرغوب فيه: تستخدم خدمات البريد الإلكتروني نماذج التصنيف لتحديد الرسائل غير المرغوب فيها.
- الاستدعاء العالي مطلوب لالتقاط أكبر قدر ممكن من الرسائل غير المرغوب فيها. ففقدان الرسائل غير المرغوب فيها (السلبية الكاذبة) يزعج المستخدمين.
- الدقة العالية أمر بالغ الأهمية لتجنب تصنيف رسائل البريد الإلكتروني المشروعة ("هام") على أنها رسائل غير مرغوب فيها (إيجابية كاذبة). يمكن أن يكون التصنيف الخاطئ لرسالة بريد إلكتروني مهمة إشكالية للغاية.
- توفر F1-Score مقياسًا مناسبًا لتقييم الفعالية الإجمالية لمرشح الرسائل غير المرغوب فيها، مع تحقيق التوازن بين الحاجة إلى تصفية الرسائل غير المرغوب فيها دون فقدان الرسائل المهمة. يتضمن ذلك تقنيات من معالجة اللغة الطبيعية (NLP).
النتيجة F1 مقابل المقاييس ذات الصلة
من المهم التمييز بين F1-Score ومقاييس التقييم الأخرى:
- الدقة: تقيس الدقة الإجمالية ولكن يمكن أن تكون غير موثوقة للفئات غير المتوازنة.
- الدقة والاسترجاع: تجمع F1-Score بين هذين الأمرين. استخدم الدقة عندما يكون تقليل الإيجابيات الخاطئة أمرًا أساسيًا؛ واستخدم الاسترجاع عندما يكون تقليل السلبيات الخاطئة أمرًا بالغ الأهمية.
- متوسط الدقة المتوسطة (mAP): مقياس أساسي لمهام الكشف عن الأجسام، مثل تلك التي تقوم بها Ultralytics YOLO تقوم mAP بحساب متوسط الدقة عبر مستويات مختلفة من الاستدعاء وغالبًا عبر فئات كائنات متعددة وعتبات التقاطع على الاتحاد (IoU). على الرغم من ارتباطه بالدقة والاستدعاء، إلا أن mAP يقيّم أداء اكتشاف الكائنات على وجه التحديد، مع الأخذ في الاعتبار كلاً من التصنيف والتوطين. يمكنك استكشاف مقاييس أداءYOLO لمزيد من التفاصيل. راجع مقارنات النماذج مثل YOLO11 مقابل YOLOv8 التي تعتمد غالبًا على mAP.
- التقاطع على الاتحاد (IoU): يقيس التداخل بين المربع المحدّد المتوقّع والمربع المحدّد الحقيقي في اكتشاف الأجسام. يقيّم جودة التوطين وليس أداء التصنيف مباشرةً مثل F1-Score.
- مصفوفة الارتباك: جدول يلخص أداء التصنيف، ويوضح الإيجابيات الحقيقية والسلبيات الحقيقية والإيجابيات الخاطئة والسلبيات الخاطئة، والتي تُشتق منها الدقة والتذكر والدقة ودرجة F1.
النتيجة F1- Score في نظام Ultralytics البيئي
داخل منظومة Ultralytics في حين أن mAP هو المعيار لتقييم نماذج اكتشاف الكائنات مثل YOLO11، يمكن أن تكون F1-Score ذات صلة عند تقييم قدرات مهمة التصنيف أو تقييم الأداء على فئة معينة ضمن مشكلة اكتشاف أو تجزئة، خاصةً إذا كان اختلال التوازن بين الفئات مصدر قلق. تسهل أدوات مثل Ultralytics HUB تدريب النماذج المخصصة وتتبع مقاييس الأداء المختلفة أثناء تقييم النموذج. ويساعد فهم مقاييس مثل F1-Score في ضبط النماذج بدقة لتلبية احتياجات محددة باستخدام تقنيات مثل ضبط المعلمة المفرطة. أطر عمل مثل PyTorch ومكتبات مثل Scikit-learn توفر تطبيقات لحساب F1-Score.