K-Means Clustering هي خوارزمية أساسية في التعلّم غير الخاضع للإشراف، وتُستخدم على نطاق واسع لتقسيم مجموعة بيانات إلى عدد محدد مسبقًا (K) من المجموعات المتميزة وغير المتداخلة. وهي فعالة بشكل خاص لاكتشاف هياكل المجموعات الأساسية داخل البيانات عندما لا يكون لديك تصنيفات محددة مسبقًا. الهدف الأساسي من K-Means هو تجميع نقاط البيانات المتشابهة معًا عن طريق تقليل التباين داخل كل مجموعة، وتحديدًا مجموع المسافات المربعة بين كل نقطة بيانات والنقطة المركزية (النقطة الوسطية) للمجموعة المخصصة لها. وهي تقنية أساسية في التنقيب عن البيانات وتحليل البيانات الاستكشافية.
كيف يعمل التجميع K-Means Clusterering
تعمل خوارزمية K-Means من خلال عملية تكرارية للعثور على التعيينات العنقودية المثلى:
- التهيئة: اختر عشوائيًا نقاط بيانات K من مجموعة البيانات لتكون بمثابة مراكز أولية للمجموعات. وبدلاً من ذلك، يمكن تهيئة الوسطيات باستخدام طرق مثل k-means++.
- خطوة التعيين: تعيين كل نقطة بيانات في مجموعة البيانات إلى أقرب نقطة مركزية، بناءً على مقياس المسافة (عادةً المسافة الإقليدية). هذا يشكل مجموعات K الأولية.
- خطوة التحديث: إعادة حساب موضع النقط المركزية لكل مجموعة من خلال أخذ متوسط جميع نقاط البيانات المخصصة لتلك المجموعة.
- التكرار: كرر خطوتي التعيين والتحديث حتى لا تتحرك المجاميع المركزية بشكل ملحوظ، أو تتوقف نقاط البيانات عن تغيير تعيينات المجموعات، مما يشير إلى التقارب.
يضمن هذا التنقيح التكراري تحسين الخوارزمية تدريجيًا من انضغاط المجموعات وفصلها. تحظى خوارزمية K-Means بالتقدير لبساطتها وكفاءتها الحسابية، مما يجعلها قابلة للتطوير لمجموعات البيانات الكبيرة. للتعمق أكثر في طرق التجميع وتطبيقاتها، توفر موارد مثل وثائق التجميع scikit-learn تفاصيل وأمثلة مستفيضة.
تطبيقات التجميع K-Means Clustering
يجد K-Means Clusterering تطبيقات في العديد من المجالات في الذكاء الاصطناعي (AI) والتعلم الآلي (ML). فيما يلي مثالان ملموسان:
- تقسيم العملاء: غالبًا ما تستخدم شركات البيع بالتجزئة K-Means لتجميع العملاء بناءً على تاريخ الشراء أو سلوك التصفح أو الخصائص الديموغرافية. يساعد ذلك على تحديد شرائح متميزة مثل "المتسوقين المتكررين" أو "المشترين ذوي الميزانية المحدودة" أو "المستخدمين غير النشطين"، مما يتيح حملات تسويقية مستهدفة وتوصيات مخصصة للمنتجات. يتماشى هذا مع الاتجاهات الأوسع نطاقاً لكيفية قيام الذكاء الاصطناعي بإحداث ثورة في تجارة التجزئة.
- ضغط الصور: في الرؤية الحاسوبية (CV)، يمكن استخدام K-Means في تكميم الألوان، وهو شكل من أشكال ضغط الصور. من خلال تجميع ألوان البكسل في مجموعات K، تقلل الخوارزمية عدد الألوان اللازمة لتمثيل الصورة، وبالتالي تقلل من حجم الملف مع الاحتفاظ بالتشابه البصري. يتم استكشاف هذه التقنية في العديد من البرامج التعليمية لمعالجة الصور.
K-Means Clusterering مقابل المفاهيم ذات الصلة
يعد فهم الفروق بين K-Means والخوارزميات الأخرى أمرًا بالغ الأهمية لاختيار الأداة المناسبة:
- K-Means Clustering مقابل DBSCAN: كلاهما خوارزميات تجميع تُستخدم في التعلّم غير الخاضع للإشراف. ومع ذلك، تقوم K-Means بتقسيم البيانات إلى عدد محدد مسبقًا (K) من المجموعات الكروية استنادًا إلى مراكز. على النقيض من ذلك، تحدد DBSCAN (التجميع المكاني القائم على الكثافة للتطبيقات مع الضوضاء) المجموعات استنادًا إلى كثافة نقاط البيانات، مما يسمح لها بالعثور على مجموعات ذات شكل اعتباطي واكتشاف القيم المتطرفة (الضوضاء) تلقائيًا. لا يتطلب DBSCAN تحديد عدد المجموعات مسبقًا، على عكس K-Means. يمكنك معرفة المزيد حول طرق التجميع القائمة على الكثافة.
- تجميع K-Means مقابل التعلّم الخاضع للإشراف: K-Means هي تقنية غير خاضعة للإشراف؛ فهي تعمل مع بيانات غير مصنفة لاكتشاف الأنماط أو التجميعات المتأصلة. وعلى العكس من ذلك، تتعلم خوارزميات التعلّم الخاضع للإشراف، مثل تلك المستخدمة في Ultralytics YOLO لاكتشاف الكائنات أو تصنيف الصور، من البيانات التي تحتوي بالفعل على تسميات (على سبيل المثال، الصور المصنفة بأنواع الكائنات ومواقعها). تهدف الأساليب الخاضعة للإشراف إلى التنبؤ بالتسميات للبيانات الجديدة غير المرئية استنادًا إلى التسميات المكتسبة، بينما تهدف K-Means إلى إنشاء التسميات (المجموعات) بنفسها. يمكنك استكشاف مجموعات بيانات التعلم تحت الإشراف المختلفة المستخدمة لتدريب النماذج.
يوفر إتقان K-Means أساسًا قويًا لاستكشاف بنية البيانات. يمكن لأدوات مثل Ultralytics HUB المساعدة في إدارة مجموعات البيانات وتدريب النماذج، مع إمكانية الاستفادة من الرؤى المكتسبة من تقنيات التجميع لتحسين أداء النموذج أو فهم توزيعات البيانات بشكل أفضل. يمكن أن يساعد أيضًا استكشاف المزيد من مقاييس تقييم التجميع في تقييم جودة نتائج K-Means.