مسرد المصطلحات

بايز ساذج

اكتشف بساطة وقوة مصنفات باييز الساذجة لتصنيف النصوص، والبرمجة اللغوية العصبية اللغوية، واكتشاف الرسائل غير المرغوب فيها، وتحليل المشاعر في الذكاء الاصطناعي وتعلم الآلة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تشير مصنفات بايز الساذجة إلى عائلة من المصنفات الاحتمالية البسيطة والفعالة في الوقت نفسه والتي تعتمد على تطبيق نظرية بايز مع افتراض استقلالية قوية ("ساذجة") بين السمات. على الرغم من هذا التبسيط، تُستخدم مصنفات بايز الساذجة على نطاق واسع في التعلم الآلي (ML) نظرًا لكفاءتها وسهولة تنفيذها وأدائها الجيد بشكل مدهش في العديد من سيناريوهات العالم الحقيقي، خاصة في المهام المتعلقة بالنصوص. وهي خيار شائع للنماذج الأساسية في مشاكل التصنيف.

المفهوم الأساسي: الافتراض "الساذج"

تتمثل الفكرة الأساسية وراء سذاجة باييز في حساب احتمالية انتماء نقطة بيانات إلى فئة معينة، بالنظر إلى سماتها. يأتي الجزء "الساذج" من الافتراض الأساسي بأن جميع الميزات التي تساهم في التصنيف مستقلة عن بعضها البعض، بالنظر إلى الفئة. على سبيل المثال، عند تصنيف بريد إلكتروني على أنه بريد مزعج أو غير مزعج، تفترض الخوارزمية أن وجود كلمة "مجاني" مستقل عن وجود كلمة "نقود"، بالنظر إلى أن البريد الإلكتروني هو بريد مزعج. على الرغم من أن هذا الافتراض نادرًا ما يكون صحيحًا في الواقع (غالبًا ما يكون للكلمات في اللغة تبعيات)، إلا أنه يبسّط العملية الحسابية بشكل كبير، مما يجعل الخوارزمية سريعة وتتطلب بيانات تدريب أقل مقارنةً بالنماذج الأكثر تعقيدًا. وهي تنتمي إلى فئة خوارزميات التعلّم تحت الإشراف.

أنواع مصنفات بايز الساذجة

توجد العديد من الاختلافات في باييز الساذج المصممة خصيصًا لأنواع مختلفة من البيانات:

  • بايز الساذج الغوسي: يفترض أن الميزات تتبع توزيعًا غاوسيًا (طبيعيًا). يُستخدم عادةً عندما يكون للميزات قيم مستمرة.
  • الباييس الساذج متعدد الحدود: يُستخدم عادةً للتعدادات المنفصلة، مثل تعداد الكلمات في تصنيف النصوص. يعمل بشكل جيد مع الميزات التي تمثل الترددات أو التعدادات.
  • برنولي باييز الساذج: مناسب للميزات الثنائية/الثنائية (على سبيل المثال، ما إذا كانت الكلمة تظهر في مستند أم لا).

يمكن العثور على تفاصيل حول هذه المتغيرات غالبًا في وثائق مكتبة التعلم الآلي، مثل قسم Scikit-learn Naive Bayes.

التطبيقات الواقعية

تتفوق مصنفات بايز الساذجة في تطبيقات مختلفة، على الرغم من بساطتها:

  1. تصفية الرسائل غير المرغوب فيها: إحدى حالات الاستخدام الكلاسيكية. حيث تستخدم خدمات البريد الإلكتروني نهج "باييه الساذج" لتصنيف رسائل البريد الإلكتروني على أنها "رسائل غير مرغوب فيها" أو "غير مرغوب فيها" بناءً على تكرار كلمات أو أنماط معينة تم تحديدها في مجموعة البيانات. يمكن العثور على مزيد من التفاصيل حول هذا النهج في أدلة مثل "دليل عملي لتصنيف النصوص الساذجة باييز".
  2. تصنيف النصوص وتحليل المشاعر: يُستخدم على نطاق واسع في معالجة اللغة الطبيعية (NLP) لمهام مثل تصنيف المقالات الإخبارية حسب الموضوع(تصنيف المستندات)، أو تحديد نوع النص، أو إجراء تحليل المشاعر (تحديد ما إذا كانت المراجعة إيجابية أو سلبية).

المزايا والعيوب

المزايا:

  • سريع في التدريب والتنبؤ.
  • يتطلب كميات صغيرة نسبيًا من بيانات التدريب.
  • يعمل بشكل جيد حتى مع البيانات عالية الأبعاد (العديد من الميزات)، مثل النصوص.
  • سهلة التنفيذ والفهم.

العيوب:

  • غالبًا ما يتم انتهاك افتراض الاستقلالية القوي في البيانات الواقعية، مما قد يحد من الدقة.
  • يمكن أن يكون حساسًا لكيفية توزيع الميزات (على سبيل المثال، قد لا يكون افتراض غاوسي مناسبًا).
  • بالنسبة للميزات المستمرة، يمكن أن يتأثر الأداء إذا كانت البيانات لا تتبع التوزيع المفترض.

مقارنة مع مصنفات أخرى

ساذج بايز هو مصنف احتمالي يحسب الاحتمالات الصريحة للتصنيفات. وهذا يتناقض مع نماذج مثل آلات دعم المتجهات (SVM)، التي تجد مستوى فائق مثالي لفصل الفئات، أو أشجار القرار التي تستخدم بنية شبيهة بالشجرة من القواعد. في حين أن آلات SVMs غالبًا ما يكون أداؤها أفضل عندما تكون تفاعلات الميزات مهمة وتكون الفئات منفصلة جيدًا، وتوفر أشجار القرار قابلية تفسير عالية، تظل نماذج "باييف باي" الساذجة خط أساس قوي، خاصةً بالنسبة للبيانات النصية، نظرًا لسرعتها وكفاءتها، حتى عندما لا يتم استيفاء افتراض الاستقلالية بشكل مثالي. توفر أدوات مثل Ultralytics HUB منصات لإدارة مختلف مشاريع التعلّم الآلي المختلفة، على الرغم من أنها تركز عادةً على نماذج التعلّم العميق للرؤية الحاسوبية بدلاً من خوارزميات التعلّم الآلي الكلاسيكية مثل Naive Bayes.

قراءة الكل