مسرد المصطلحات

التطبيع

اكتشف قوة التطبيع في التعلم الآلي! تعرّف على كيفية تحسين تدريب النموذج، وتعزيز الأداء، وضمان حلول ذكاء اصطناعي قوية.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التطبيع هو تقنية أساسية للمعالجة المسبقة للبيانات تُستخدم على نطاق واسع في التعلم الآلي وعلوم البيانات. ويتمثل هدفها الأساسي في إعادة قياس ميزات البيانات الرقمية إلى نطاق قياسي مشترك، غالبًا ما يكون بين 0 و1 أو -1 و1، دون تشويه الاختلافات في نطاقات القيم. تضمن هذه العملية أن تساهم جميع الميزات بشكل متساوٍ في تدريب النموذج، مما يمنع الميزات ذات القيم الأكبر بطبيعتها (مثل الراتب) من التأثير بشكل غير متناسب على النتيجة مقارنةً بالميزات ذات القيم الأصغر (مثل سنوات الخبرة). يعد التطبيع أمرًا بالغ الأهمية بشكل خاص للخوارزميات الحساسة لقياس الميزات، مثل الأساليب القائمة على النسب المتدرجة المستخدمة في التعلم العميق (DL).

أهمية التطبيع

غالبًا ما تحتوي مجموعات البيانات في العالم الحقيقي على ميزات ذات مقاييس ووحدات مختلفة إلى حد كبير. على سبيل المثال، في مجموعة بيانات للتنبؤ بتقلبات العملاء، قد يتراوح "رصيد الحساب" من مئات إلى ملايين الوحدات، بينما قد يتراوح "عدد المنتجات" من 1 إلى 10. بدون التطبيع، قد ترى خوارزميات التعلم الآلي التي تحسب المسافات أو تستخدم التدرجات، مثل آلات دعم المتجهات (SVM) أو الشبكات العصبية (NN)، بشكل غير صحيح أن الميزة ذات النطاق الأكبر قد تكون أكثر أهمية بسبب حجمها. يعمل التطبيع على تسوية ساحة اللعب، مما يضمن أن مساهمة كل ميزة تعتمد على قوتها التنبؤية وليس على حجمها. يؤدي هذا إلى تقارب أسرع أثناء التدريب، وتحسين دقة النموذج، ونماذج أكثر استقرارًا وقوة، وهو أمر مفيد عند تدريب نماذج مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام.

تقنيات التطبيع الشائعة

توجد عدة طرق لإعادة قياس البيانات:

  • القياس الأدنى والأقصى: يمكن القول إن هذا هو أسلوب التطبيع الأكثر شيوعًا. فهو يعيد قياس الميزات خطيًا إلى نطاق ثابت، عادةً [0، 1]. تصبح القيمة الصغرى في الميزة الأصلية 0، وتصبح القيمة القصوى 1، وجميع القيم الأخرى تقع بشكل متناسب بينهما. إنه حساس للقيم المتطرفة.
  • توحيد درجة Z-التوحيد القياسي: في حين أنه غالبًا ما يتم تجميعه مع التطبيع، فإن التوحيد القياسي مختلف من الناحية الفنية. فهو يعيد قياس البيانات ليكون متوسطها 0 وانحرافها المعياري 1. على عكس القياس الأدنى والأقصى فهو لا يقيد القيم بنطاق محدد، وهو ما يمكن أن يكون مفيدًا للخوارزميات التي تفترض بيانات مركزها صفر. تعرف على المزيد حول المعالجة المسبقة لـ Scikit-learn.

يعتمد الاختيار بين هذه التقنيات في كثير من الأحيان على مجموعة البيانات المحددة ومتطلبات خوارزمية التعلم الآلي المستخدمة. يمكنك العثور على أدلة إرشادية حول المعالجة المسبقة للبيانات المشروحة والتي غالبًا ما تتضمن خطوات التطبيع.

التطبيع مقابل التوحيد القياسي مقابل التطبيع على دفعات

من المهم التمييز بين التطبيع والمفاهيم ذات الصلة:

  • التطبيع (الحد الأدنى - الحد الأقصى للقياس): يقيس البيانات إلى نطاق ثابت (على سبيل المثال، من 0 إلى 1). مفيد عند الحاجة إلى تحديد قيم الميزة.
  • التوحيد القياسي (Z-score): يركز البيانات حول متوسط قدره 0 مع انحراف معياري قدره 1. أقل تأثراً بالقيم المتطرفة من القياس الأدنى والأقصى وغالباً ما يُفضل للخوارزميات التي تفترض بيانات موزعة بشكل طبيعي أو بيانات مركزها صفر.
  • تطبيع الدُفعات: هذه تقنية تُطبَّق داخل طبقات الشبكة العصبية العميقة أثناء التدريب، وليست خطوة عامة للمعالجة المسبقة للبيانات تُطبَّق مسبقًا. وهي تقوم بتطبيع تنشيطات الطبقة السابقة لكل دفعة مصغرة، مما يساعد على استقرار التدريب وتقليل التحول الداخلي للمتغيرات.

تطبيقات التطبيع

يُعد التطبيع خطوة واسعة الانتشار في إعداد البيانات لمختلف مهام الذكاء الاصطناعي وتعلم الآلة:

  1. معالجة الصور: في مجال الرؤية الحاسوبية (CV)، غالبًا ما يتم تطبيع قيم البكسل في الصور (التي تتراوح عادةً من 0 إلى 255) إلى النطاق [0، 1] أو [-1، 1] قبل إدخالها في نماذج لمهام مثل تصنيف الصور أو تجزئة الصور. وهذا يضمن اتساق قياس المدخلات للشبكات العصبية التلافيفية (CNNs). تستفيد العديد من مجموعات بيانات السيرة الذاتية الشائعة من هذه المعالجة المسبقة.
  2. دمج البيانات متعددة أجهزة الاستشعار: عند الجمع بين البيانات من أجهزة استشعار مختلفة بمقاييس قياس مختلفة (مثل درجة الحرارة والضغط والرطوبة) لنموذج تنبؤي، يضمن التطبيع عدم هيمنة قراءات جهاز استشعار واحد على أجهزة الاستشعار الأخرى بسبب مقياسها فقط. هذا الأمر مهم في مجالات مثل الروبوتات أو المركبات ذاتية القيادة.
  3. تحليل الصور الطبية: على غرار المعالجة العامة للصور، غالبًا ما يتطلب تحليل الصور الطبية تطبيع كثافة البكسل أو كثافة فوكسل عبر عمليات المسح المختلفة (مثل التصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب) لمراعاة الاختلافات في معدات التصوير والبروتوكولات، مما يساعد في مهام مثل اكتشاف الأورام.

باختصار، يعد التطبيع خطوة حيوية للمعالجة المسبقة التي تعمل على قياس ميزات البيانات إلى نطاق متسق، مما يحسن عملية التدريب والاستقرار والأداء للعديد من نماذج التعلم الآلي، بما في ذلك تلك التي تم تطويرها وتدريبها باستخدام أدوات مثل Ultralytics HUB. وهي تضمن مساهمة الميزات العادلة وهي ضرورية للخوارزميات الحساسة لمقياس المدخلات.

قراءة الكل