مسرد المصطلحات

استخراج الميزات

اكتشف قوة استخراج الميزات في التعلم الآلي باستخدام Ultralytics YOLO11 . تعلم تقنيات الكشف والتحليل الفعال.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

يعد استخراج السمات عملية حيوية في التعلم الآلي (ML) والرؤية الحاسوبية، حيث تعمل كخطوة حاسمة لتحويل البيانات الخام، والتي غالبًا ما تكون معقدة إلى تنسيق يمكن للخوارزميات معالجته بفعالية. وهي تتضمن تحويل البيانات غير المهيكلة أو عالية الأبعاد، مثل الصور أو الصوت أو النصوص، إلى مجموعة منظمة من السمات العددية، والتي عادةً ما يتم تمثيلها كمتجه سمة. تهدف هذه الميزات إلى التقاط الخصائص الأساسية للبيانات الأصلية مع التخلص من الضوضاء والتكرار. وتشمل الأهداف الأساسية تقليل تعقيد البيانات من خلال تقليل الأبعاد، وتسليط الضوء على الأنماط ذات الصلة، وجعل البيانات أكثر ملاءمة لنماذج التعلم الآلي. وغالبًا ما يؤدي ذلك إلى تحسين دقة النموذج، وتدريب أسرع للنموذج، وتعميم أفضل للبيانات غير المرئية.

كيف يعمل استخراج الميزات

تعتمد التقنيات المحددة لاستخراج السمات بشكل كبير على نوع البيانات التي تتم معالجتها.

  • بيانات الصور: في الرؤية التقليدية للكمبيوتر، تضمنت الأساليب تصميم خوارزميات يدويًا للكشف عن ميزات محددة مثل الحواف أو الزوايا أو القوام (باستخدام تقنيات مثل مرشحات Gabor) أو الرسوم البيانية اللونية. توفر مكتبات مثل OpenCV أدوات لتنفيذ العديد من هذه التقنيات الكلاسيكية(الموقع الرسمي OpenCV). ومع ذلك، في التعلّم العميق الحديث (DL)، خاصةً مع الشبكات العصبية التلافيفية (CNNs) المستخدمة في نماذج مثل Ultralytics YOLOغالبًا ما يتم تعلم استخراج الميزات تلقائيًا. تقوم طبقات التلافيف في الشبكة بتطبيق مرشحات على صورة الإدخال، مما يؤدي إلى توليد خرائط ميزات تلتقط أنماطًا معقدة بشكل متزايد بشكل هرمي - من الخطوط والأنسجة البسيطة في الطبقات المبكرة إلى أجزاء الكائنات والأشياء بأكملها في طبقات أعمق. يمكنك استكشاف مهام رؤية الكمبيوتر المختلفة حيث يتم تطبيق ذلك.

  • بيانات النص: بالنسبة لمهام معالجة اللغة الطبيعية (NLP )، قد يتضمن استخراج السمات طرقًا مثل حساب تردد المصطلح-تردد المستند العكسيTF) لتمثيل أهمية الكلمات أو إنشاء تضمينات للكلمات باستخدام نماذج مثل Word2Vec أو GloVe. هذه التضمينات عبارة عن متجهات كثيفة تلتقط العلاقات الدلالية بين الكلمات. تتعلم النماذج الأكثر تقدمًا مثل BERT و Transformers التمثيلات السياقية مباشرةً من النص.

  • التقنيات العامة: تعتبر أساليب مثل تحليل المكوّنات الرئيسية (PCA) والتضمين العشوائي الموزّع على شكل حرف t-التضمين العشوائي للمجاورة (t-SNE) تقنيات عامة الغرض لتقليل الأبعاد قابلة للتطبيق عبر أنواع مختلفة من البيانات. تقوم هذه التقنيات بتحويل البيانات عالية الأبعاد إلى مساحة منخفضة الأبعاد مع الحفاظ على التباين المهم أو هياكل الجوار، والتي يمكن اعتبارها شكلاً من أشكال استخراج السمات. يوفر Scikit-learn تطبيقات لهذه التقنيات.

استخراج الميزات مقابل هندسة الميزات

غالبًا ما يتم الخلط بين استخراج الميزات وهندسة الميزات، ولكنهما مفهومان مختلفان.

  • استخراج الميزات: يركز تحديدًا على تحويل البيانات الخام إلى مجموعة من السمات المشتقة، وغالبًا ما يتم ذلك باستخدام خوارزميات آلية (مثل طبقات شبكة سي إن إن) أو تقنيات رياضية راسخة (مثل التحليل المتسلسل متعدد الأبعاد أو تحويلات فورييه). الهدف عادةً هو تقليل الأبعاد وإنشاء تمثيل أكثر قابلية للإدارة.
  • هندسة السمات: هي ممارسة أوسع نطاقًا تشمل استخراج الميزات ولكنها تتضمن أيضًا إنشاء ميزات جديدة من الميزات الموجودة (على سبيل المثال، حساب النسبة بين قياسين)، واختيار الميزات الأكثر صلة بالنموذج، والتعامل مع القيم المفقودة، وتحويل الميزات بناءً على معرفة المجال ومتطلبات نموذج محدد(مثل المعالجة المسبقة للبيانات). غالبًا ما يتطلب المزيد من الجهد اليدوي والخبرة.

بينما تعمل نماذج التعلّم العميق على أتمتة الكثير من عملية استخراج السمات لمهام مثل التعرّف على الصور واكتشاف الأجسام، تظل مبادئ هندسة السمات، مثل زيادة البيانات المناسبة أو تطبيع المدخلات، ضرورية لتحقيق الأداء الأمثل.

التطبيقات الواقعية

استخراج الميزات أمر أساسي لعدد لا يحصى من تطبيقات الذكاء الاصطناعي وتعلم الآلة:

  1. تحليل الصور الطبية: عند تحليل الفحوصات الطبية مثل الأشعة السينية أو التصوير المقطعي المحوسب أو التصوير بالرنين المغناطيسي للكشف عن الأمراض مثل السرطان، يتم استخراج سمات محددة من الصور. قد تشمل هذه السمات أنماط النسيج داخل الأنسجة، وشكل وحجم الشذوذات المحتملة (مثل الأورام الموجودة في مجموعة بيانات أورام الدماغ)، أو الاختلافات في الشدة. ثم يتم تغذية هذه الميزات المستخرجة في مصنف (مثل SVM أو شبكة عصبية) للتنبؤ بوجود المرض أو مرحلته. يساعد هذا الأمر أخصائيي الأشعة في التشخيص، كما نوقش في منشورات مثل Radiology: الذكاء الاصطناعي. قد تستخدم الأنظمة الحديثة Ultralytics YOLO11 الذي يستخرج ضمنيًا ميزات لمهام مثل تحليل الصور الطبية.

  2. تحليل المشاعر: لتحديد المشاعر (إيجابية أو سلبية أو محايدة) التي يتم التعبير عنها في البيانات النصية مثل مراجعات العملاء أو منشورات وسائل التواصل الاجتماعي، يجب استخراج السمات من النص الخام. قد يتضمن ذلك حساب تواتر الكلمات الإيجابية مقابل السلبية(كيس الكلمات)، أو استخدام درجات TF أو إنشاء تضمينات جمل متطورة باستخدام نماذج لغوية مُدرّبة مسبقًا مثل تلك المتوفرة عبر Hugging Face. تقيس هذه الميزات النبرة العاطفية للنص، مما يسمح لنموذج تعلّم الآلة بتصنيف الشعور العام، وهو أمر بالغ الأهمية لفهم ملاحظات العملاء.

استخلاص الميزات في نماذجYOLO Ultralytics

أحدث نماذج الكشف عن الأجسام مثل Ultralytics YOLOv8 و YOLO11 تقوم باستخراج السمات ضمنيًا ضمن بنية الشبكة العصبية (NN) الخاصة بها. تعمل الطبقات الأولية (التي غالبًا ما تكون جزءًا من العمود الفقري) كمستخرجات ميزات قوية ومتعلمة. أثناء مرور بيانات الإدخال عبر هذه الطبقات، يتم تحديد الميزات الهرمية تلقائيًا وتمثيلها في خرائط الميزات. وعلى الرغم من أن العملية مؤتمتة إلى حد كبير، إلا أن فهم استخراج الميزات يساعد في تصميم خطوات فعالة للمعالجة المسبقة للبيانات، وإجراء ضبط المعلمة الفائقة، وتفسير سلوك النموذج، وربما باستخدام الأدوات المتاحة في وثائقUltralytics أو منصات مثل Ultralytics HUB لإدارة مجموعات البيانات والتجارب. تُستخدم التقنيات أيضًا في المهام النهائية مثل تتبع الكائنات حيث يمكن استخراج ميزات المظهر للحفاظ على هويات الكائنات عبر الإطارات. أطر مثل PyTorch و TensorFlow البنية التحتية الأساسية لبناء هذه النماذج وتدريبها.

قراءة الكل