اكتشف DBSCAN: خوارزمية تجميع قوية لتحديد الأنماط والتعامل مع الضوضاء وتحليل مجموعات البيانات المعقدة في التعلم الآلي.
DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات مع الضوضاء) هي خوارزمية تجميع شائعة تُستخدم في التعلم الآلي (ML) والتنقيب عن البيانات. كنوع من طرق التعلّم غير الخاضعة للإشراف، فهي تقوم بتجميع نقاط البيانات المتقاربة معًا، وتمييز النقاط التي تقع وحدها في مناطق منخفضة الكثافة على أنها نقاط متطرفة أو ضوضاء. على عكس طرق التقسيم مثل K-means، يمكن لـ DBSCAN اكتشاف مجموعات ذات أشكال عشوائية ولا تتطلب تحديد عدد المجموعات مسبقًا، مما يجعلها متعددة الاستخدامات لمختلف مهام استكشاف البيانات في الذكاء الاصطناعي (AI).
تعمل DBSCAN على أساس مفهوم قابلية الوصول إلى الكثافة. وهي تُعرّف المجموعات على أنها مناطق كثيفة من نقاط البيانات مفصولة بمناطق ذات كثافة أقل. وتعتمد الخوارزمية على معلمتين رئيسيتين: "إبسيلون" (eps) و"النقاط الدنيا" (minPts). يُحدّد "إبسيلون" المسافة القصوى بين نقطتين لاعتبارهما متجاورتين، وهو ما يُحدّد بشكل أساسي نصف قطر حول كل نقطة. ويحدد "الحد الأدنى للنقاط" (MinPts) الحد الأدنى لعدد النقاط المطلوبة داخل جوار إبسيلون للنقطة (بما في ذلك النقطة نفسها) لتصنيفها "نقطة أساسية".
يتم تصنيف النقاط على النحو التالي:
تبدأ الخوارزمية بنقطة عشوائية وتسترجع جيرانها إبسيلون. إذا كانت نقطة أساسية، تبدأ مجموعة عنقودية جديدة. ثم تقوم الخوارزمية بتوسيع هذه المجموعة عن طريق إضافة جميع النقاط التي يمكن الوصول إليها مباشرةً (الجيران) واستكشاف أحيائها بشكل متكرر. تستمر هذه العملية حتى لا يمكن إضافة المزيد من النقاط إلى أي مجموعة.
تقدم DBSCAN العديد من المزايا مقارنةً بخوارزميات التجميع الأخرى:
ومع ذلك، يمكن أن تكون حساسة لاختيار eps
و minPts
، ويمكن أن يتدهور أدائها على البيانات عالية الأبعاد بسبب "لعنة البُعدية".
إن قدرة DBSCAN على العثور على مجموعات كثيفة وعزل القيم المتطرفة تجعلها ذات قيمة في مختلف المجالات:
ال Ultralytics في المقام الأول على نماذج التعلم الخاضعة للإشراف مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور. بينما لا يتم تنفيذ DBSCAN بشكل مباشر ضمن حلقة تدريب YOLO الأساسية، فإن المبادئ الأساسية لتحليل الكثافة ذات صلة. يعد فهم التوزيع المكاني والكثافة أمرًا بالغ الأهمية عند تحليل مجموعات البيانات أو تفسير مخرجات نماذج الكشف (على سبيل المثال، تجميع الأجسام المكتشفة). علاوةً على ذلك، يوفر Ultralytics HUB أدوات لإدارة مجموعات البيانات وتحليلها، بما يتماشى مع السياق الأوسع لاستكشاف البيانات حيث تلعب تقنيات التجميع مثل DBSCAN دورًا.
للحصول على تفاصيل تقنية أعمق، يرجى الرجوع إلى مصادر مثل وثائق scikit-learn DBSCAN أو الورقة البحثية الأصلية:"خوارزمية قائمة على الكثافة لاكتشاف التكتلات في قواعد البيانات المكانية الكبيرة ذات الضوضاء".