تبسيط البيانات عالية الأبعاد باستخدام تقنيات تقليل الأبعاد. حسِّن أداء نموذج التعلم الآلي وتصوره وكفاءته اليوم!
يُعد تقليل الأبعاد تقنية حاسمة في التعلم الآلي (ML) تُستخدم لتبسيط مجموعات البيانات المعقدة عن طريق تقليل عدد السمات أو المتغيرات مع الحفاظ على المعلومات الأساسية. يمكن أن تؤدي البيانات عالية الأبعاد، حيث يكون عدد السمات كبيرًا، إلى تحديات مثل زيادة التكلفة الحسابية والإفراط في التركيب وصعوبة التصور. يعالج تقليل الأبعاد هذه المشكلات عن طريق تحويل البيانات إلى فضاء منخفض الأبعاد، مما يجعلها أكثر قابلية للإدارة وأكثر كفاءة للتحليل والنمذجة.
هناك نوعان أساسيان من تقنيات تقليل الأبعاد: اختيار الميزة واستخراج الميزة.
يتضمن اختيار الميزات اختيار مجموعة فرعية من الميزات الأصلية بناءً على مدى ملاءمتها وأهميتها للمهمة المطروحة. تحتفظ هذه الطريقة بالمعنى الأصلي للميزات، مما يجعل النتائج أكثر قابلية للتفسير. تتضمن طرق اختيار الميزات الشائعة طرق التصفية وطرق التجميع والطرق المضمنة. تقوم طرق التصفية بتقييم كل ميزة بشكل مستقل باستخدام مقاييس إحصائية، مثل الارتباط أو المعلومات المتبادلة. تقوم طرق التجميع بتقييم مجموعات فرعية من الميزات من خلال تدريب نموذج وتقييم أدائه. تدمج الأساليب المضمنة اختيار الميزة كجزء من عملية تدريب النموذج، كما هو الحال في أشجار القرار أو تقنيات التنظيم مثل Lasso.
ينشئ استخراج السمات ميزات جديدة من خلال دمج الميزات الأصلية أو تحويلها. غالبًا ما ينتج عن هذا النهج تمثيل أكثر إحكامًا للبيانات، ولكن قد لا يكون للسمات الجديدة تفسير مباشر من حيث المتغيرات الأصلية. تشمل تقنيات استخراج السمات الشائعة تحليل المكوّنات الرئيسية (PCA) والتضمين العشوائي الموزّع على شكل حرف t الموزّع على شكل حرف t. يحدد PCA المكونات الرئيسية، وهي مجموعات خطية من السمات الأصلية التي تلتقط الحد الأقصى من التباين في البيانات. تُعد تقنية t-SNE مفيدة بشكل خاص لتصور البيانات عالية الأبعاد في بعدين أو ثلاثة أبعاد من خلال الحفاظ على أوجه التشابه المحلية بين نقاط البيانات.
يُستخدم تقليل الأبعاد على نطاق واسع في مجالات مختلفة في الذكاء الاصطناعي والتعلم الآلي. فيما يلي بعض التطبيقات البارزة:
في عملية التعرف على الصور، غالبًا ما يتم تمثيل الصور بعدد كبير من وحدات البكسل التي يُعتبر كل منها ميزة. يمكن أن يؤدي تطبيق تقنيات تقليل الأبعاد مثل PCA إلى تقليل عدد الميزات بشكل كبير مع الاحتفاظ بالمعلومات الأساسية اللازمة للتمييز بين الصور المختلفة. لا يؤدي ذلك إلى تسريع تدريب نماذج الرؤية الحاسوبية فحسب، بل يساعد أيضًا في تقليل متطلبات التخزين لمجموعات بيانات الصور. على سبيل المثال، يمكن استخدام PCA لتحويل مجموعة بيانات من صور الوجه إلى فضاء منخفض الأبعاد، حيث تمثل كل ميزة جديدة مكونًا رئيسيًا يلتقط أهم الاختلافات في ملامح الوجه.
في معالجة اللغات الطبيعية (NLP)، غالبًا ما يتم تمثيل المستندات النصية باستخدام متجهات عالية الأبعاد، كما هو الحال في نماذج كيس الكلمات أو TF-IDF. يمكن استخدام تقنيات الحد من الأبعاد، مثل تقنية تخصيص الدريشليت الكامن (LDA) أو تحليل المصفوفة غير السالبة (NMF)، لتقليل أبعاد هذه المتجهات مع الحفاظ على المعنى الدلالي للنص. على سبيل المثال، يمكن ل LDA تحديد الموضوعات داخل مجموعة من المستندات، وتمثيل كل مستند كمزيج من هذه الموضوعات. وهذا يقلل من أبعاد البيانات ويوفر تمثيلاً أكثر قابلية للتفسير للنص.
يعد تقليل الأبعاد تقنية أساسية في التعلم الآلي لإدارة البيانات عالية الأبعاد، وتحسين الكفاءة الحسابية، وتعزيز أداء النموذج. من خلال تقليل عدد الميزات من خلال اختيار الميزات أو استخراج الميزات، يمكن للممارسين إنشاء نماذج أكثر قوة وكفاءة. يعد فهم مبادئ وتطبيقات تقليل الأبعاد أمرًا بالغ الأهمية لأي شخص يعمل مع مجموعات البيانات المعقدة في مجال الذكاء الاصطناعي وتعلم الآلة. وسواءً كان ذلك من خلال تبسيط البيانات من أجل التصور أو تحسين النماذج للحصول على أداء أفضل، فإن تقليل الأبعاد يلعب دورًا حيويًا في نجاح العديد من مشاريع التعلم الآلي. بالنسبة لأولئك الذين يستخدمون نماذج Ultralytics YOLO ، يمكن أن يؤدي دمج تقنيات تقليل الأبعاد إلى أوقات تدريب أسرع وتوقعات أكثر دقة، خاصة عند التعامل مع الصور عالية الدقة أو مجموعات البيانات الكبيرة. تُستخدم تقنيات مثل PCA بشكل شائع لتقليل أبعاد بيانات الصور قبل إدخالها في شبكة عصبية تلافيفية (CNN)، كما هو موضح في ورقة بحثية حول تقليل الأبعاد لتصنيف الصور. بالإضافة إلى ذلك، يمكن استخدام أجهزة الترميز التلقائي لتعلم ترميز البيانات الفعالة بطريقة غير خاضعة للإشراف، مما يعزز أداء نماذج مثل Ultralytics YOLO .