تقليل البُعدية

تبسيط البيانات عالية الأبعاد باستخدام تقنيات تقليل الأبعاد. حسِّن أداء نموذج التعلم الآلي وتصوره وكفاءته اليوم!

تقليل الأبعاد هو تقنية حاسمة للمعالجة المسبقة للبيانات في التعلّم الآلي (ML) تُستخدم لتقليل عدد السمات - المعروفة أيضًا باسم المتغيرات أو الأبعاد - في مجموعة البيانات. ويتمثل الهدف الأساسي في تحويل البيانات عالية الأبعاد إلى تمثيل منخفض الأبعاد مع الاحتفاظ بأكبر قدر ممكن من المعلومات ذات المغزى. هذه العملية ضرورية لتبسيط النماذج وتقليل التعقيد الحسابي والتخفيف من مشكلة شائعة تُعرف باسم "لعنة الأبعاد"، حيث يتدهور الأداء مع زيادة عدد الميزات. يعد التطبيق الفعال لهذه التقنيات جزءًا أساسيًا من دورة حياة تطوير الذكاء الاصطناعي.

ما أهمية تقليل الأبعاد؟

يطرح العمل مع البيانات عالية الأبعاد العديد من التحديات. فقد تصبح النماذج المدرّبة على مجموعات البيانات التي تحتوي على عدد كبير جدًا من الميزات معقدة للغاية، مما يؤدي إلى الإفراط في التجهيز، حيث يتعلم النموذج الضوضاء بدلاً من النمط الأساسي. بالإضافة إلى ذلك، يتطلب المزيد من الميزات المزيد من الطاقة الحاسوبية والتخزين، مما يزيد من وقت التدريب والتكاليف. يعالج تقليل الأبعاد هذه المشكلات من خلال:

تبسيط النماذج: تؤدي الميزات الأقل إلى نماذج أبسط وأسهل في التفسير وأقل عرضة للإفراط في التركيب.
تحسين الأداء: من خلال إزالة الميزات غير ذات الصلة أو الزائدة عن الحاجة (الضوضاء)، يمكن للنموذج التركيز على أهم الإشارات في البيانات، مما يؤدي غالبًا إلى دقة وتعميم أفضل.
تقليل العبء الحسابي: تعمل البيانات ذات الأبعاد المنخفضة على تسريع تدريب النماذج بشكل كبير وتقلل من متطلبات الذاكرة، وهو أمر بالغ الأهمية للاستدلال في الوقت الفعلي.
تعزيز التصور المرئي: من المستحيل تصور البيانات بأكثر من ثلاثة أبعاد. تعمل تقنيات مثل t-SNE على اختزال البيانات إلى بعدين أو ثلاثة أبعاد، مما يسمح بتصور البيانات بشكل ثاقب.

التقنيات الشائعة

هناك طريقتان رئيسيتان لتقليل الأبعاد: اختيار الميزة واستخراج الميزة.

اختيار الميزات: يتضمن هذا النهج اختيار مجموعة فرعية من الميزات الأصلية وتجاهل الباقي. وهو لا ينشئ ميزات جديدة، وبالتالي يكون النموذج الناتج قابلاً للتفسير بدرجة كبيرة. غالبًا ما يتم تصنيف الأساليب على أنها تقنيات التصفية أو التجميع أو التضمين.
استخراج الميزات: يقوم هذا النهج بتحويل البيانات من فضاء عالي الأبعاد إلى فضاء ذي أبعاد أقل من خلال إنشاء ميزات جديدة من مجموعات من الميزات القديمة. وتشمل التقنيات الشائعة ما يلي:
- تحليل المكونات الرئيسية (PCA): تقنية خطية تحدد المكونات الرئيسية (اتجاهات التباين الأعلى) في البيانات. وهي سريعة وقابلة للتفسير ولكنها قد لا تلتقط العلاقات غير الخطية المعقدة.
- الترميز التلقائي: نوع من الشبكات العصبية المستخدمة في التعلّم غير الخاضع للإشراف والتي يمكنها تعلّم تمثيلات مضغوطة وفعالة للبيانات. وهي قوية في تعلم البنى غير الخطية ولكنها أكثر تعقيدًا من التحليل المتسلسل المتعدد الأبعاد.
- t-SNE (تضمين الجوار العشوائي الموزع على شكل حرف t): تقنية غير خطية ممتازة لتصور البيانات عالية الأبعاد من خلال الكشف عن التكتلات الأساسية والبنى المحلية. وغالبًا ما تُستخدم للاستكشاف بدلاً من استخدامها كخطوة معالجة مسبقة لنموذج آخر من نماذج التعلّم الآلي نظرًا لتكلفتها الحسابية.