مسرد المصطلحات

DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات ذات الضوضاء)

اكتشف DBSCAN: خوارزمية تجميع قوية لتحديد الأنماط والتعامل مع الضوضاء وتحليل مجموعات البيانات المعقدة في التعلم الآلي.

DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات ذات الكثافة الضوضائية) هي خوارزمية تعلم غير خاضعة للإشراف شائعة تُستخدم لتجميع نقاط البيانات المتقاربة معًا، وتمييز النقاط التي تقع وحدها في مناطق منخفضة الكثافة كنقاط متطرفة. على عكس طرق التجميع الأخرى، لا تتطلب DBSCAN تحديد عدد المجموعات مسبقًا. إن قدرتها على إيجاد مجموعات عشوائية الشكل وقوتها في مواجهة الضوضاء تجعلها أداة قوية للتنقيب عن البيانات وتحليلها. وقد تم تقديم الخوارزمية لأول مرة في ورقة بحثية في عام 1996 من قبل مارتن إيستر وهانز بيتر كريغل ويورج ساندر وشياووي شو، والتي أصبحت عملاً أساسياً في هذا المجال.

كيف يعمل DBSCAN

يحدد DBSCAN المجموعات بناءً على كثافة نقاط البيانات في مساحة معينة. يعمل على معلمتين رئيسيتين:

  • إبسيلون (ε أو eps): تحدد هذه المعلمة نصف قطر الحي حول نقطة بيانات ما. تعتبر جميع النقاط الواقعة ضمن هذه المسافة جيراناً.
  • الحد الأدنى من النقاط (MinPts): هذا هو الحد الأدنى لعدد نقاط البيانات (بما في ذلك النقطة نفسها) المطلوبة لتشكيل منطقة أو مجموعة كثيفة.

استنادًا إلى هذه المعلمات، تصنف DBSCAN كل نقطة بيانات إلى واحد من ثلاثة أنواع:

  1. النقاط الأساسية: تكون النقطة نقطة ما نقطة أساسية إذا كان لديها على الأقل MinPts داخلها eps الجوار. هذه النقاط هي الجزء الداخلي من الكتلة.
  2. النقاط الحدودية: تكون النقطة نقطة ما نقطة حدية إذا كانت داخل نطاق eps مجاورة لنقطة أساسية ولكن ليس لديها ما يكفي من الجيران لتكون نقطة أساسية بحد ذاتها. تشكِّل هذه النقاط حافة الكتلة.
  3. نقاط الضوضاء (القيم المتطرفة): تعتبر النقطة ضوضاء إذا لم تكن نقطة أساسية ولا نقطة حدودية. هذه هي القيم المتطرفة التي لا تنتمي إلى أي مجموعة.

تبدأ الخوارزمية بنقطة عشوائية وتسترجع جوارها. إذا كانت نقطة أساسية، يتم إنشاء مجموعة جديدة. تقوم الخوارزمية بعد ذلك بتوسيع الكتلة بشكل متكرر عن طريق إضافة جميع الجيران الذين يمكن الوصول إليهم مباشرة، وهي عملية تستمر حتى لا يمكن إضافة المزيد من النقاط إلى أي مجموعة. يمكنك الاطلاع على تطبيق مرئي في وثائق scikit-learn.

تطبيقات الذكاء الاصطناعي/التعلم الآلي في العالم الحقيقي

إن قدرة DBSCAN على تحديد الضوضاء واكتشاف التكتلات غير الخطية تجعلها ذات قيمة عالية في مختلف المجالات:

  • التحليل الجغرافي المكاني: يستخدم مخططو المدن والجغرافيون DBSCAN لتحليل البيانات المكانية. على سبيل المثال، من خلال تجميع إحداثيات نظام تحديد المواقع العالمي (GPS) لحوادث المرور، يمكنهم تحديد النقاط الساخنة للحوادث. وبالمثل، يمكن استخدامه للعثور على مجموعات من حالات الأمراض المبلغ عنها، مما يساعد علماء الأوبئة على تتبع تفشي الأمراض. وتستخدم منظمات مثل هيئة المعلومات الجغرافية المكانية في اليابان أساليب مماثلة قائمة على الكثافة لرسم الخرائط.
  • كشف الشذوذ في القطاع المالي: في القطاع المالي، يمكن استخدام DBSCAN للكشف عن المعاملات الاحتيالية. من خلال تجميع أنماط الإنفاق النموذجية للعميل، يمكن وضع علامة على أي معاملة تقع خارج هذه المجموعات (أي يمكن تصنيفها على أنها ضوضاء) لإجراء مزيد من التحقيق. هذا النهج هو أحد المكونات الرئيسية لأنظمة كشف الاحتيال الحديثة.

DBSCAN و Ultralytics

يركز نظام Ultralytics البيئي في المقام الأول على نماذج التعلم الخاضعة للإ شراف، مثل Ultralytics YOLO للمهام التي تتضمن اكتشاف الأجسام وتصنيف الصور وتجزئة النماذج. في حين أن DBSCAN هي طريقة غير خاضعة للإشراف، إلا أن مبادئها ذات صلة في السياق الأوسع للرؤية الحاسوبية.

على سبيل المثال، بعد إجراء الكشف عن الأجسام باستخدام نموذج مثل YOLO11 على مقطع فيديو لشارع مزدحم، يمكن تطبيق DBSCAN على الإحداثيات المركزية للمربعات المحدودة المكتشفة. يمكن لهذه الخطوة اللاحقة للمعالجة تجميع اكتشافات المشاة الفردية في مجموعات متميزة، مما يوفر مستوى أعلى من فهم المشهد. يعد فهم توزيع البيانات أمرًا بالغ الأهمية أيضًا عند إعداد مجموعات البيانات للتدريب. يمكن أن يكشف التحليل الاستكشافي للبيانات باستخدام DBSCAN عن أنماط أو حالات شاذة في مجموعة البيانات، والتي يمكن إدارتها وتصورها باستخدام منصات مثل Ultralytics HUB.

التمييز بين المصطلحات ذات الصلة

  • التجميع K-Means Clusterering: الفرق الأكثر أهمية هو أن K-Means يتطلب من المستخدم تحديد عدد المجموعات (k) مسبقًا، بينما يحدد DBSCAN عدد المجموعات تلقائيًا. يعاني K-Means أيضًا مع المجموعات غير الكروية وهو حساس للقيم المتطرفة، حيث يفرض كل نقطة في مجموعة. بينما تتفوق DBSCAN في العثور على مجموعات ذات شكل اعتباطي وتعزل بفعالية القيم المتطرفة كضوضاء.
  • التجميع الهرمي: تُنشئ هذه الطريقة شجرة من التكتلات تُعرف باسم dendrogram. على الرغم من فائدتها في تصور البنى العنقودية المتداخلة، إلا أنها قد تكون أكثر تكلفة من الناحية الحسابية على مجموعات البيانات الكبيرة مقارنةً ب DBSCAN. يعتمد الاختيار بينهما غالبًا على حجم مجموعة البيانات والمخرجات المطلوبة، كما هو موضح في أدلة اختيار خوارزمية التجميع الصحيحة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة