مسرد المصطلحات

DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات ذات الضوضاء)

اكتشف DBSCAN: خوارزمية تجميع قوية لتحديد الأنماط والتعامل مع الضوضاء وتحليل مجموعات البيانات المعقدة في التعلم الآلي.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

DBSCAN (التجميع المكاني المستند إلى الكثافة للتطبيقات مع الضوضاء) هي خوارزمية تجميع شائعة تُستخدم في التعلم الآلي (ML) والتنقيب عن البيانات. كنوع من طرق التعلّم غير الخاضعة للإشراف، فهي تقوم بتجميع نقاط البيانات المتقاربة معًا، وتمييز النقاط التي تقع وحدها في مناطق منخفضة الكثافة على أنها نقاط متطرفة أو ضوضاء. على عكس طرق التقسيم مثل K-means، يمكن لـ DBSCAN اكتشاف مجموعات ذات أشكال عشوائية ولا تتطلب تحديد عدد المجموعات مسبقًا، مما يجعلها متعددة الاستخدامات لمختلف مهام استكشاف البيانات في الذكاء الاصطناعي (AI).

كيف يعمل DBSCAN

تعمل DBSCAN على أساس مفهوم قابلية الوصول إلى الكثافة. وهي تُعرّف المجموعات على أنها مناطق كثيفة من نقاط البيانات مفصولة بمناطق ذات كثافة أقل. وتعتمد الخوارزمية على معلمتين رئيسيتين: "إبسيلون" (eps) و"النقاط الدنيا" (minPts). يُحدّد "إبسيلون" المسافة القصوى بين نقطتين لاعتبارهما متجاورتين، وهو ما يُحدّد بشكل أساسي نصف قطر حول كل نقطة. ويحدد "الحد الأدنى للنقاط" (MinPts) الحد الأدنى لعدد النقاط المطلوبة داخل جوار إبسيلون للنقطة (بما في ذلك النقطة نفسها) لتصنيفها "نقطة أساسية".

يتم تصنيف النقاط على النحو التالي:

  • النقاط الأساسية: النقاط التي لها على الأقل نقاط جيران على الأقل ضمن نصف قطر إبسيلون. تشكل هذه النقاط الجزء الداخلي من الكتلة.
  • النقاط الحدودية: النقاط التي يمكن الوصول إليها من نقطة أساسية ولكن ليس لها نقاط حدودية صغيرة مجاورة. تقع على حافة الكتلة.
  • نقاط الضوضاء (القيم المتطرفة): النقاط التي ليست نقاطاً أساسية ولا نقاطاً حدودية. وهي تقع في مناطق منخفضة الكثافة.

تبدأ الخوارزمية بنقطة عشوائية وتسترجع جيرانها إبسيلون. إذا كانت نقطة أساسية، تبدأ مجموعة عنقودية جديدة. ثم تقوم الخوارزمية بتوسيع هذه المجموعة عن طريق إضافة جميع النقاط التي يمكن الوصول إليها مباشرةً (الجيران) واستكشاف أحيائها بشكل متكرر. تستمر هذه العملية حتى لا يمكن إضافة المزيد من النقاط إلى أي مجموعة.

المزايا الرئيسية

تقدم DBSCAN العديد من المزايا مقارنةً بخوارزميات التجميع الأخرى:

  • يتعامل مع الضوضاء بفعالية: تحدد نقاط التشويش وتسميها بوضوح، وهو ما تعاني منه العديد من الخوارزميات الأخرى.
  • الأشكال التعسفية للمجموعات: يمكنها العثور على مجموعات غير كروية، على عكس الخوارزميات مثل خوارزميات مثل التجميع K-means التي تفترض أن المجموعات محدبة أو كروية.
  • لا حاجة لتحديد عدد المجموعات مسبقًا: يتم تحديد عدد المجموعات بواسطة الخوارزمية بناءً على بنية كثافة البيانات.

ومع ذلك، يمكن أن تكون حساسة لاختيار eps و minPts، ويمكن أن يتدهور أدائها على البيانات عالية الأبعاد بسبب "لعنة البُعدية".

التطبيقات الواقعية

إن قدرة DBSCAN على العثور على مجموعات كثيفة وعزل القيم المتطرفة تجعلها ذات قيمة في مختلف المجالات:

  1. كشف الشذوذ: تحديد المعاملات غير الاعتيادية في مجال التمويل، أو الكشف عن الاختراقات الشبكية لتعزيز أمن البيانات، أو العثور على العناصر المعيبة في مراقبة جودة التصنيع، وغالباً ما يكون مكملاً للرؤية الحاسوبية في أنظمة التصنيع.
  2. تحليل البيانات الجغرافية المكانية: تجميع مواقع الحوادث (مثل الجرائم أو تفشي الأمراض) على الخريطة لتحديد النقاط الساخنة، أو تحليل توزيعات العملاء لتخطيط البيع بالتجزئة، أو فهم الأنماط في تحليل صور الأقمار الصناعية. يساعد ذلك في تطوير حلول للذكاء الاصطناعي في المدن الذكية.

DBSCAN و Ultralytics

ال Ultralytics في المقام الأول على نماذج التعلم الخاضعة للإشراف مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام وتجزئة الصور. بينما لا يتم تنفيذ DBSCAN بشكل مباشر ضمن حلقة تدريب YOLO الأساسية، فإن المبادئ الأساسية لتحليل الكثافة ذات صلة. يعد فهم التوزيع المكاني والكثافة أمرًا بالغ الأهمية عند تحليل مجموعات البيانات أو تفسير مخرجات نماذج الكشف (على سبيل المثال، تجميع الأجسام المكتشفة). علاوةً على ذلك، يوفر Ultralytics HUB أدوات لإدارة مجموعات البيانات وتحليلها، بما يتماشى مع السياق الأوسع لاستكشاف البيانات حيث تلعب تقنيات التجميع مثل DBSCAN دورًا.

للحصول على تفاصيل تقنية أعمق، يرجى الرجوع إلى مصادر مثل وثائق scikit-learn DBSCAN أو الورقة البحثية الأصلية:"خوارزمية قائمة على الكثافة لاكتشاف التكتلات في قواعد البيانات المكانية الكبيرة ذات الضوضاء".

قراءة الكل