K-Nearest Neighbours (KNN) هي خوارزمية أساسية في التعلم الآلي (ML) تُستخدم في مهام التصنيف والانحدار. وهي تتميز ببساطتها ونهجها البديهي. تُصنَّف KNN على أنها طريقة غير بارامترية لأنها لا تضع افتراضات حول توزيع البيانات الأساسي. كما أنها تُعرف أيضًا باسم خوارزمية "التعلم الكسول" لأنها لا تبني نموذجًا عامًا أثناء مرحلة بيانات التدريب؛ وبدلاً من ذلك، فإنها تخزن مجموعة البيانات بأكملها وتقوم بإجراء الحسابات فقط عند الحاجة إلى التنبؤ.
كيف تعمل شبكة KNN
تعتمد الفكرة الأساسية وراء KNN على التشابه، وغالبًا ما يتم تعريفها باستخدام مقاييس المسافة مثل المسافة الإقليدية. عند التنبؤ بنقطة بيانات جديدة غير مرئية، تحدد الخوارزمية أقرب نقاط البيانات "K" (الجيران) إليها من مجموعة بيانات التدريب المخزنة. والقيمة "K" هي عدد صحيح يحدده المستخدم ويمثل عدد الجيران الذين تم أخذهم في الاعتبار.
- للتصنيف: يتم تعيين نقطة البيانات الجديدة إلى الفئة الأكثر شيوعًا بين جيرانها الأقرب K. إذا كانت K = 3، وكان جاران ينتميان إلى الفئة A وجاران ينتميان إلى الفئة B، يتم تصنيف النقطة الجديدة على أنها الفئة A.
- للانحدار: عادةً ما يكون التنبؤ لنقطة البيانات الجديدة هو متوسط (أو أحيانًا متوسط) قيم أقرب جيرانها K.
يُعدّ اختيار مقياس المسافة وقيمة "K" من المعلمات الفائقة الحاسمة التي تؤثر بشكل كبير على أداء النموذج.
اختيار قيمة "ك
يعد اختيار "K" الأمثل أمرًا بالغ الأهمية. فقيمة "K" الصغيرة تجعل النموذج حساسًا للضوضاء والقيم المتطرفة، مما قد يؤدي إلى الإفراط في الملاءمة. وعلى العكس من ذلك، يمكن أن تؤدي قيمة "K" الكبيرة إلى زيادة سلاسة حدود القرار، مما قد يؤدي إلى عدم ملاءمة النموذج وارتفاع التكلفة الحسابية. غالبًا ما يتم استخدام تقنيات مثل التحقق التبادلي للعثور على قيمة "ك" مناسبة تحقق التوازن بين التحيز والتباين.
تطبيقات KNN
تتناسب بساطة شبكة KNN مع العديد من التطبيقات، خاصةً عندما تكون قابلية التفسير ذات قيمة:
- أنظمة التوصية: يمكن لشبكة KNN اقتراح عناصر (مثل الأفلام أو المنتجات) للمستخدمين بناءً على تفضيلات جيرانهم "الأقرب" (المستخدمون ذوو الأذواق المتشابهة). وقد استكشفت خدمات مثل Netflix طرقًا مماثلة قائمة على المثيل.
- التعرف على الصور: في مهام تصنيف الصور الأساسية، يمكن لشبكة KNN تصنيف الصورة بناءً على فئات الصور الأكثر تشابهًا في مجموعة التدريب (على سبيل المثال، تحديد الأرقام المكتوبة بخط اليد بناءً على تشابه البكسل). على الرغم من فعاليته في مجموعات البيانات الأبسط مثل MNIST، إلا أن المهام الأكثر تعقيدًا تتطلب غالبًا نماذج متطورة.
- كشف الشذوذ: من خلال تحديد نقاط البيانات البعيدة عن أي مجموعة من الجيران، يمكن استخدام شبكة KNN للكشف عن القيم المتطرفة أو الحالات الشاذة، وهي مفيدة في مجالات مثل الكشف عن الاحتيال أو تحديد العناصر المعيبة في التصنيع. استكشف المزيد عن طرق اكتشاف الحالات الشاذة.
- تحليل التعبير الجيني: في مجال المعلوماتية الحيوية، تساعد شبكة KNN في تصنيف العينات بناءً على أنماط التعبير الجيني، وتجميع الملامح الجينية المتشابهة معًا. تعرف على المزيد حول الذكاء الاصطناعي في تطبيقات الرعاية الصحية.
مزايا ومساوئ شبكة KNN
تقدم شبكة KNN العديد من المزايا ولكنها تأتي أيضًا مع قيود:
المزايا:
- البساطة والبديهية: سهولة الفهم والتنفيذ.
- لا توجد مرحلة تدريب: يتعلم على الفور من خلال تخزين مجموعة البيانات، مما يجعله قابلاً للتكيف مع البيانات الجديدة.
- المرونة: يتعامل بشكل طبيعي مع التصنيف متعدد الفئات ويمكن تكييفه مع الانحدار.
العيوب:
- التكلفة الحسابية: يمكن أن يكون التنبؤ بطيئًا ومكلفًا من الناحية الحسابية، خاصةً مع مجموعات البيانات الكبيرة، حيث يتطلب حساب المسافات إلى جميع نقاط التدريب.
- الحساسية للسمات غير ذات الصلة: يتدهور الأداء بشكل كبير مع البيانات عالية الأبعاد (لعنة الأبعاد) أو عند وجود ميزات غير ذات صلة. قد تكون هناك حاجة إلى تقنيات مثل تقليل الأبعاد.
- الحاجة إلى تحجيم الميزات: حساس لمقياس البيانات؛ يمكن أن تهيمن الميزات ذات النطاقات الأكبر على حسابات المسافة، مما يستلزم التطبيع.
- تحديد "K" الأمثل: يتطلب العثور على أفضل قيمة ل "K" ضبطًا دقيقًا للمعامل الفائق.
KNN مقابل المفاهيم ذات الصلة
من المهم التمييز بين KNN والخوارزميات الأخرى:
- تجميع K-Means: في حين أن كلاهما يستخدم مقاييس "K" والمسافة، فإن K-Means هي خوارزمية تعلم غير خاضعة للإشراف لتجميع البيانات في مجموعات بناءً على التشابه. أما KNN فهي خوارزمية تعلّم خاضعة للإشراف للتصنيف أو الانحدار بناءً على الجيران الموسومين.
- آلة دعم المتجهات (SVM): آلة SVM هي خوارزمية خاضعة للإشراف تعثر على المستوى الفائق الأمثل لفصل الفئات. وخلافًا لنهج KNN القائم على المثيل، تقوم SVM ببناء نموذج واضح، وغالبًا ما يكون أداؤها أفضل مع البيانات عالية الأبعاد.
- أشجار القرار: تبني أشجار القرار نموذجًا يعتمد على تقسيمات الميزات، مما يوفر قواعد واضحة للتصنيف أو الانحدار. تعتمد KNN على التشابه المحلي بدلاً من القواعد الواضحة.
في حين أن شبكة KNN ذات قيمة لمهام معينة وفهم المفاهيم الأساسية للتعلم الآلي، فإن المشاكل المعقدة مثل اكتشاف الأجسام في الوقت الحقيقي غالباً ما تستفيد من نماذج أكثر تقدماً مثل Ultralytics YOLOالتي توفر سرعة ودقة فائقة، خاصةً على مجموعات بيانات الرؤية الحاسوبية واسعة النطاق. يمكنك تدريب مثل هذه النماذج ونشرها باستخدام منصات مثل Ultralytics HUB.