اكتشف DBSCAN: خوارزمية تجميع قوية لتحديد الأنماط والتعامل مع الضوضاء وتحليل مجموعات البيانات المعقدة في التعلم الآلي.
DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات ذات الكثافة الضوضائية) هي خوارزمية تعلم غير خاضعة للإشراف شائعة تُستخدم لتجميع نقاط البيانات المتقاربة معًا، وتمييز النقاط التي تقع وحدها في مناطق منخفضة الكثافة كنقاط متطرفة. على عكس طرق التجميع الأخرى، لا تتطلب DBSCAN تحديد عدد المجموعات مسبقًا. إن قدرتها على إيجاد مجموعات عشوائية الشكل وقوتها في مواجهة الضوضاء تجعلها أداة قوية للتنقيب عن البيانات وتحليلها. وقد تم تقديم الخوارزمية لأول مرة في ورقة بحثية في عام 1996 من قبل مارتن إيستر وهانز بيتر كريغل ويورج ساندر وشياووي شو، والتي أصبحت عملاً أساسياً في هذا المجال.
يحدد DBSCAN المجموعات بناءً على كثافة نقاط البيانات في مساحة معينة. يعمل على معلمتين رئيسيتين:
eps
): تحدد هذه المعلمة نصف قطر الحي حول نقطة بيانات ما. تعتبر جميع النقاط الواقعة ضمن هذه المسافة جيراناً.استنادًا إلى هذه المعلمات، تصنف DBSCAN كل نقطة بيانات إلى واحد من ثلاثة أنواع:
MinPts
داخلها eps
الجوار. هذه النقاط هي الجزء الداخلي من الكتلة.eps
مجاورة لنقطة أساسية ولكن ليس لديها ما يكفي من الجيران لتكون نقطة أساسية بحد ذاتها. تشكِّل هذه النقاط حافة الكتلة.تبدأ الخوارزمية بنقطة عشوائية وتسترجع جوارها. إذا كانت نقطة أساسية، يتم إنشاء مجموعة جديدة. تقوم الخوارزمية بعد ذلك بتوسيع الكتلة بشكل متكرر عن طريق إضافة جميع الجيران الذين يمكن الوصول إليهم مباشرة، وهي عملية تستمر حتى لا يمكن إضافة المزيد من النقاط إلى أي مجموعة. يمكنك الاطلاع على تطبيق مرئي في وثائق scikit-learn.
إن قدرة DBSCAN على تحديد الضوضاء واكتشاف التكتلات غير الخطية تجعلها ذات قيمة عالية في مختلف المجالات:
يركز نظام Ultralytics البيئي في المقام الأول على نماذج التعلم الخاضعة للإ شراف، مثل Ultralytics YOLO للمهام التي تتضمن اكتشاف الأجسام وتصنيف الصور وتجزئة النماذج. في حين أن DBSCAN هي طريقة غير خاضعة للإشراف، إلا أن مبادئها ذات صلة في السياق الأوسع للرؤية الحاسوبية.
على سبيل المثال، بعد إجراء الكشف عن الأجسام باستخدام نموذج مثل YOLO11 على مقطع فيديو لشارع مزدحم، يمكن تطبيق DBSCAN على الإحداثيات المركزية للمربعات المحدودة المكتشفة. يمكن لهذه الخطوة اللاحقة للمعالجة تجميع اكتشافات المشاة الفردية في مجموعات متميزة، مما يوفر مستوى أعلى من فهم المشهد. يعد فهم توزيع البيانات أمرًا بالغ الأهمية أيضًا عند إعداد مجموعات البيانات للتدريب. يمكن أن يكشف التحليل الاستكشافي للبيانات باستخدام DBSCAN عن أنماط أو حالات شاذة في مجموعة البيانات، والتي يمكن إدارتها وتصورها باستخدام منصات مثل Ultralytics HUB.
k
) مسبقًا، بينما يحدد DBSCAN عدد المجموعات تلقائيًا. يعاني K-Means أيضًا مع المجموعات غير الكروية وهو حساس للقيم المتطرفة، حيث يفرض كل نقطة في مجموعة. بينما تتفوق DBSCAN في العثور على مجموعات ذات شكل اعتباطي وتعزل بفعالية القيم المتطرفة كضوضاء.