هندسة الميزات هي العملية الحاسمة لاختيار وتحويل وإنشاء الميزات (متغيرات الإدخال) من البيانات الأولية لتحسين أداء نماذج التعلم الآلي (ML). وتعتبر هذه العملية فنًا أكثر من كونها علمًا صارمًا، وغالبًا ما تتطلب خبرة في المجال والحدس والتجريب. تؤثر جودة الميزات التي يتم إدخالها في النموذج تأثيرًا مباشرًا على قدرته على تعلم الأنماط وإجراء تنبؤات دقيقة، مما يجعل هندسة الميزات حجر الزاوية في مشاريع التعلم الآلي الناجحة. يمكن أن تؤدي الميزات الأفضل إلى نماذج أبسط وأوقات تدريب أسرع ودقة أفضل.
ما هي هندسة الميزات؟
في جوهرها، تقوم هندسة الميزات بترجمة البيانات الخام، التي غالبًا ما تكون فوضوية، إلى تنسيق منظم يمكن للخوارزميات فهمه والتعلم منه بفعالية. يتضمن ذلك فهم البيانات، وسياق المشكلة، والنموذج المختار للتعلم الآلي. والهدف من ذلك هو صياغة ميزات المدخلات التي تكون مفيدة وتمييزية ومستقلة، مع تسليط الضوء على الأنماط الأساسية ذات الصلة بمهمة التنبؤ. تعمل هذه العملية على سد الفجوة بين جمع البيانات الأولية وتدريب النموذج، مما يؤثر بشكل كبير على نتائج خط أنابيب التعلم الآلي.
التقنيات الرئيسية
يتم استخدام العديد من التقنيات في هندسة الميزات، وغالبًا ما يتم استخدامها معًا:
- إنشاء الميزات: توليد ميزات جديدة من خلال الجمع بين الميزات الموجودة أو تحويلها. ومن الأمثلة على ذلك إنشاء مصطلحات تفاعلية (على سبيل المثال، ضرب متغيرين)، أو ميزات متعددة الحدود، أو اشتقاق مقاييس خاصة بالمجال (مثل نسبة الدين إلى الدخل في التمويل).
- تحويل الميزات: تعديل الميزات الحالية لتلبية افتراضات النموذج أو تحسين الأداء. تتضمن الأساليب الشائعة القياس (مثل التطبيع)، أو التحويل اللوغاريتمي للبيانات المنحرفة، أو تقسيم المتغيرات المستمرة إلى فئات. في الرؤية الحاسوبية (CV)، يمكن أيضًا النظر إلى تقنيات مثل زيادة البيانات على أنها شكل من أشكال تحويل الميزات المطبقة على بيانات الصور.
- استخراج الميزات: إنشاء مجموعة أصغر من الميزات الجديدة الأكثر إفادة من المجموعة الأصلية، وغالبًا ما تُستخدم لتقليل الأبعاد. تندرج تقنيات مثل تحليل المكونات الرئيسية (PCA) ضمن هذه الفئة. بينما يرتبط الاستخراج بتحديد الميزات، إلا أن الاستخراج ينشئ ميزات جديدة، بينما يختار التحديد مجموعة فرعية من الميزات الموجودة.
- اختيار الميزات: تحديد واختيار أكثر الميزات ذات الصلة من مجموعة البيانات الأصلية واختيارها، والتخلص من الميزات غير ذات الصلة أو الزائدة عن الحاجة. يساعد ذلك على تقليل تعقيد النموذج، ومنع الإفراط في التركيب، وتحسين الكفاءة الحسابية. وتتراوح الأساليب من تحليل الارتباط البسيط إلى الأساليب الأكثر تعقيدًا من حيث التجميع والتضمين.
أمثلة من العالم الحقيقي
تنتشر هندسة الميزات في كل مكان في مختلف تطبيقات الذكاء الاصطناعي:
- الصيانة التنبؤية: للتنبؤ بفشل المعدات، قد تكون بيانات المستشعرات الأولية (درجة الحرارة والاهتزاز والضغط) صاخبة وعالية الأبعاد. يمكن أن تتضمن هندسة الميزات إنشاء ميزات مثل المتوسطات المتداولة، أو الانحرافات المعيارية على النوافذ الزمنية، أو مكونات التردد من بيانات الاهتزاز (باستخدام تحويلات فورييه)، أو الوقت منذ آخر حدث صيانة. توفر هذه الميزات الهندسية إشارات أوضح لنماذج التنبؤ بالأعطال. وهذا أمر بالغ الأهمية في مجال الذكاء الاصطناعي في التصنيع.
- معالجة اللغة الطبيعية (NLP): بالنسبة لمهام مثل تحليل المشاعر، يحتاج النص الخام إلى تحويل. يمكن أن تتضمن هندسة السمات إنشاء متجهات TF(تواتر تردد المصطلح-تردد المستند العكسي)، أو تعداد الكلمات، أو ن-غرامات (تسلسل الكلمات)، أو درجات سهولة القراءة، أو استخراج سمات لغوية محددة (على سبيل المثال، استخدام الكلمات الإيجابية/السلبية). في حين أن نماذج المحولات الحديثة تتعلم التمثيلات تلقائيًا، لا يزال بإمكان هندسة الميزات الصريحة تحسين الأداء، خاصةً مع مجموعات البيانات الأصغر أو المهام المتخصصة.
هندسة الميزات مقابل المفاهيم ذات الصلة
- المعالجة المسبقة للبيانات: فئة أوسع تشمل هندسة السمات وتنظيف البيانات ومعالجة القيم المفقودة وتنسيق البيانات الأولية. تركز هندسة الميزات تحديدًا على تحسين متغيرات الإدخال للنموذج. راجع دليل Ultralytics حول المعالجة المسبقة للبيانات المشروحة.
- استخراج الميزات في التعلم العميق: تتعلم نماذج التعلّم العميق (DL) ، وخاصةً نماذج السي إن إن، الميزات الهرمية تلقائيًا من البيانات الأولية (مثل البكسل). يقلل هذا من الحاجة إلى هندسة الميزات يدويًا ولكنه لا يلغيها تمامًا، حيث أن المعالجة المسبقة للمدخلات أو هندسة الميزات للبيانات الوصفية إلى جانب البيانات الأولية يمكن أن تظل مفيدة.
- التعلّم الآلي الآلي (AutoML): تهدف أدوات مثل Google Cloud AutoML إلى أتمتة العديد من خطوات التعلّم الآلي المختلفة، بما في ذلك هندسة الميزات. ومع ذلك، غالبًا ما تؤدي البصيرة البشرية والمعرفة بالمجال إلى تصميم ميزات أكثر فعالية من الأساليب الآلية البحتة.
هندسة الميزات و Ultralytics
في حين أن النماذج المتقدمة مثل Ultralytics YOLO تتفوق في مهام مثل اكتشاف الأجسام وتجزئة الصور من خلال التعلم التلقائي للسمات البصرية ذات الصلة من خلال بنيات الشبكات العصبية العميقة(العمود الفقري والرقبة والرأس)، تظل مبادئ هندسة السمات ذات صلة. على سبيل المثال، تُعد المعالجة المسبقة للصور المُدخَلة (على سبيل المثال، معادلة الرسم البياني للإضاءة المتفاوتة وتقليل الضوضاء) قبل إدخالها في نموذج YOLO شكلاً من أشكال هندسة السمات التي يمكن أن تحسن من متانتها. علاوةً على ذلك، يمكن هندسة مخرجات YOLO (مثل إحداثيات المربع المحدود وفئات الكائنات والأعداد) في ميزات للمهام النهائية أو دمجها مع مصادر بيانات أخرى لتحليل أكثر تعقيدًا، وربما تتم إدارتها داخل منصات مثل Ultralytics HUB التي تساعد في تنظيم مجموعات البيانات والنماذج. استكشف وثائقUltralytics لمزيد من المعلومات حول استخدام النماذج وتخصيصها.