اكتشف DBSCAN: خوارزمية تجميع قوية لتحديد الأنماط والتعامل مع الضوضاء وتحليل مجموعات البيانات المعقدة في التعلم الآلي.
DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات مع الضوضاء) هي خوارزمية تجميع مستخدمة على نطاق واسع في التعلم الآلي (ML) والتنقيب عن البيانات. وهي تنتمي إلى فئة أساليب التعلّم غير الخاضعة للإشراف، مما يعني أنها تكتشف الأنماط في البيانات دون تسميات محددة مسبقًا. تتفوق DBSCAN في تجميع نقاط البيانات المتقاربة معًا في مساحة الميزات، وتحدد بفعالية المجموعات ذات الأشكال التعسفية. وتتمثل إحدى نقاط قوته الرئيسية في قدرته على تمييز النقاط المعزولة في المناطق منخفضة الكثافة كقيم متطرفة أو ضوضاء، مما يجعله قويًا بالنسبة لمجموعات البيانات في العالم الحقيقي. على عكس الخوارزميات التي تتطلب تحديد عدد المجموعات مسبقًا، تحدد DBSCAN المجموعات بناءً على كثافة البيانات، مما يوفر مرونة في مهام استكشاف البيانات المختلفة في الذكاء الاصطناعي.
يحدد DBSCAN المجموعات بناءً على مفهوم قابلية الوصول إلى الكثافة. وهي تنظر إلى المجموعات على أنها مناطق عالية الكثافة تفصل بينها مناطق منخفضة الكثافة. يتم التحكم في سلوك الخوارزمية بشكل أساسي من خلال معلمتين:
بناءً على هذه المعلمات، يتم تصنيف نقاط البيانات إلى ثلاثة أنواع:
minPts
جيرانها داخل eps
نصف القطر. تقع هذه النقاط عادةً في الجزء الداخلي من الكتلة.eps
نصف قطر النقطة الأساسية) ولكن ليس لديها minPts
المجاورة نفسها. تقع النقاط الحدودية على حافة التجمعات.تبدأ الخوارزمية باختيار نقطة بيانات عشوائية غير مرئية. تتحقق مما إذا كانت النقطة هي نقطة أساسية من خلال فحص نقطة البيانات eps
-الجوار. إذا كانت نقطة أساسية، يتم تشكيل مجموعة جديدة، وتضيف الخوارزمية بشكل متكرر جميع النقاط التي يمكن الوصول إليها بكثافة (النقاط الأساسية والحدودية في الجوار) إلى هذه المجموعة. إذا كانت النقطة المختارة نقطة ضوضاء، يتم تمييزها مؤقتًا على هذا النحو وتنتقل الخوارزمية إلى النقطة التالية غير المرغوب فيها. تستمر هذه العملية حتى تتم زيارة جميع النقاط وتعيينها إلى مجموعة أو تمييزها على أنها ضوضاء. للتعمق أكثر في المنهجية الأصلية، راجع ورقة البحث: "خوارزمية تستند إلى الكثافة لاكتشاف التكتلات في قواعد البيانات المكانية الكبيرة ذات الضوضاء".
تقدم DBSCAN العديد من المزايا:
ومع ذلك، فإن لها قيودًا أيضًا:
eps
و minPts
. قد يكون العثور على المعلمات المثلى أمرًا صعبًا. أدوات مثل تطبيقات عرض scikit-learn التي يمكن ضبطها.eps
-minPts
قد لا تعمل التركيبة بشكل جيد مع جميع المجموعات.وغالبًا ما تتم مقارنة DBSCAN بخوارزميات التجميع الأخرى، لا سيما خوارزمية التجميع K-means. تشمل الاختلافات الرئيسية ما يلي:
k
) مسبقًا، بينما يحددها DBSCAN تلقائيًا.إن قدرة DBSCAN على العثور على مجموعات كثيفة وعزل القيم المتطرفة تجعلها مناسبة لمختلف التطبيقات:
ال Ultralytics في المقام الأول على نماذج التعلم الخاضعة للإشراف، مثل Ultralytics YOLO لمهام تشمل اكتشاف الأجسام وتصنيف الصور وتجزئة الصور. بينما لا تُدمج DBSCAN، كونها طريقة غير خاضعة للإشراف، بشكل مباشر في حلقات التدريب الأساسية لنماذج مثل YOLOv8 أو YOLO11فإن مبادئها ذات صلة في السياق الأوسع للرؤية الحاسوبية وتحليل البيانات. ويُعد فهم كثافة البيانات وتوزيعها أمرًا بالغ الأهمية عند إعداد مجموعات البيانات وتحليلها للتدريب أو عند معالجة مخرجات النموذج بعد ذلك، على سبيل المثال، تجميع الأجسام المكتشفة بناءً على قربها المكاني بعد الاستدلال. توفر منصات مثل Ultralytics HUB أدوات لإدارة مجموعات البيانات وتصورها، والتي يمكن أن تكمل تقنيات تحليل البيانات الاستكشافية حيث يمكن تطبيق خوارزميات التجميع مثل DBSCAN.