مسرد المصطلحات

المعالجة المسبقة للبيانات

إتقان المعالجة المسبقة للبيانات من أجل التعلّم الآلي. تعلم تقنيات مثل التنظيف والقياس والترميز لتعزيز دقة النموذج والأداء.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تشير المعالجة المسبقة للبيانات إلى الخطوات الحاسمة التي يتم اتخاذها لتنظيف البيانات الأولية وتحويلها وتنظيمها إلى تنسيق مناسب قبل إدخالها في نموذج التعلم الآلي (ML). غالبًا ما تكون البيانات الأولية التي يتم جمعها من العالم الحقيقي غير مكتملة وغير متسقة وتحتوي على أخطاء أو ضوضاء. تهدف المعالجة المسبقة إلى معالجة هذه المشكلات، وتحسين جودة البيانات بشكل كبير، وبالتالي تحسين أداء ودقة وموثوقية نماذج التعلم الآلي التي يتم تدريبها عليها. إنها مرحلة أساسية في أي مشروع يعتمد على البيانات، بما في ذلك تلك الموجودة في الذكاء الاصطناعي والرؤية الحاسوبية.

ما أهمية المعالجة المسبقة للبيانات؟

تتعلم نماذج التعلم الآلي الأنماط من البيانات. إذا كانت البيانات معيبة، سيتعلم النموذج أنماطًا غير صحيحة، مما يؤدي إلى تنبؤات وقرارات سيئة. تُعد البيانات عالية الجودة والمُعدّة جيدًا ضرورية لبناء نماذج قوية مثل Ultralytics YOLO لمهام مثل اكتشاف الأجسام. تساعد المعالجة المسبقة الفعالة للبيانات على:

  • تحسين دقة النموذج: تؤدي البيانات النظيفة إلى نماذج أكثر دقة.
  • تقليل وقت التدريب: يمكن أن تؤدي إزالة البيانات غير ذات الصلة أو الزائدة عن الحاجة إلى تسريع عملية التدريب.
  • تجنب الأخطاء: التعامل مع التناقضات يمنع النماذج من تعلم الارتباطات الزائفة.
  • تعزيز التعميم: تساعد البيانات المُعالجة مسبقًا بشكل صحيح على تحسين أداء النماذج على البيانات غير المرئية، مما يقلل من الإفراط في التعميم.

تقنيات المعالجة المسبقة الشائعة للبيانات

يتم استخدام العديد من التقنيات بشكل شائع أثناء المعالجة المسبقة للبيانات:

  • تنظيف البيانات: يتضمن ذلك تحديد ومعالجة الأخطاء والتناقضات والقيم المفقودة (التضمين) والقيم المتطرفة في مجموعة البيانات. ويضمن دقة البيانات واتساقها.
  • تحويل البيانات: ويشمل ذلك تقنيات مثل:
    • التطبيع/التحجيم: ضبط نطاق أو توزيع الميزات العددية (على سبيل المثال، تحجيم قيم البكسل في الصور من 0-255 إلى 0-1). يضمن ذلك عدم تأثير الميزات ذات القيم الأكبر بشكل غير متناسب على النموذج.
    • ترميز المتغيرات الفئوية: تحويل البيانات غير العددية (مثل الفئات أو التسميات) إلى صيغة رقمية يمكن للنماذج فهمها، باستخدام طرق مثل الترميز أحادي الدرجة.
  • هندسة الميزات: إنشاء ميزات جديدة أكثر إفادة من الميزات الحالية لتحسين أداء النموذج.
  • استخراج الميزات: اشتقاق ميزات جديدة منخفضة الأبعاد تلقائيًا من البيانات الأصلية، وغالبًا ما تُستخدم في معالجة الصور.
  • تقليل البُعدية: تقليل عدد ميزات المدخلات مع الحفاظ على المعلومات المهمة، والتي يمكن أن تبسط النماذج وتقلل من التكلفة الحسابية. تقنيات مثل تحليل المكونات الرئيسية (PCA) شائعة.
  • المعالجة المسبقة للصور: خاص بالرؤية الحاسوبية، ويشمل ذلك تغيير حجم الصور إلى حجم موحد، وتحويل مساحات الألوان (على سبيل المثال، تدرج اللون الأحمر والأخضر والأزرق إلى تدرج الرمادي)، وتطبيق مرشحات للحد من الضوضاء. يمكنك العثور على مزيد من التفاصيل في دليلUltralytics حول المعالجة المسبقة للبيانات المشروحة.

التطبيقات الواقعية

  1. الرؤية الحاسوبية للمركبات ذاتية القيادة: تحتاج بيانات الصور من الكاميرات إلى معالجة مسبقة مكثفة. ويشمل ذلك تغيير حجم الصور، وتطبيع شدة البكسل، وتصحيح تشوه العدسة، وتطبيق تقنيات زيادة البيانات مثل التدوير العشوائي أو تعديلات السطوع لجعل نماذج اكتشاف الأجسام قوية في الظروف المختلفة. يمكن لمنصات مثل Ultralytics HUB المساعدة في إدارة مجموعات البيانات هذه.
  2. الصيانة التنبؤية في التصنيع: غالبًا ما تكون بيانات أجهزة الاستشعار (درجة الحرارة والاهتزاز والضغط) من الآلات مشوشة وقد تحتوي على قراءات مفقودة. وتتضمن المعالجة المسبقة تنظيف هذه البيانات عن طريق تصفية الضوضاء وتعويض القيم المفقودة باستخدام الأساليب الإحصائية وتطبيع قراءات المستشعرات قبل إدخالها في نموذج تعلّم الآلة للتنبؤ بفشل المعدات، كما هو موضح في الذكاء الاصطناعي في التصنيع.

المعالجة المسبقة للبيانات مقابل المفاهيم ذات الصلة

  • تنظيف البيانات مقابل المعالجة المسبقة للبيانات: تنظيف البيانات هي مجموعة فرعية من المعالجة المسبقة للبيانات، وتركز بشكل خاص على معالجة الأخطاء والقيم المفقودة والتناقضات. أما المعالجة المسبقة للبيانات فهي أوسع نطاقًا، حيث تشمل التنظيف والتحويل ومعالجة السمات.
  • تصنيف البيانات مقابل المعالجة المسبقة للبيانات: تتضمّن عملية تصنيف البيانات إضافة علامات أو شروح مفيدة (مثل المربعات المحدّدة لاكتشاف الكائنات) إلى البيانات الخام، مما يوفر الحقيقة الأساسية للتعلّم تحت الإشراف. ويحدث هذا عادةً قبل المعالجة المسبقة للبيانات، والتي تقوم بعد ذلك بإعداد البيانات المصنفة لتدريب النموذج. راجع دليل جمع البيانات والتعليقات التوضيحية لمزيد من السياق.
  • زيادة البيانات مقابل المعالجة المسبقة للبيانات: تعمل زيادة البيانات على زيادة حجم وتنوع مجموعة بيانات التدريب بشكل مصطنع من خلال إنشاء نسخ معدلة من البيانات الموجودة (على سبيل المثال، قلب الصور وإضافة الضوضاء). على الرغم من ارتباطها الوثيق بخطوات المعالجة المسبقة وتطبيقها غالبًا إلى جانب خطوات المعالجة المسبقة، إلا أن هدفها الأساسي هو تحسين تعميم النموذج وليس مجرد تنظيف البيانات أو تنسيقها. استكشف نصائح لتدريب الن ماذج التي غالبًا ما تنطوي على التعميم.

الأدوات والموارد

تعمل المكتبات والأدوات المختلفة على تسهيل المعالجة المسبقة للبيانات:

  • بانداس: مكتبة Python الشهيرة لمعالجة البيانات وتحليلها، وهي ممتازة لتنظيف البيانات المجدولة وتحويلها.
  • سايكيت-ليرن: يقدم مجموعة واسعة من أدوات المعالجة المسبقة، بما في ذلك أدوات القياس والترميز وطرق التضمين ضمن preprocessing الوحدة النمطية.
  • OpenCV: مكتبة رئيسية لمهام الرؤية الحاسوبية، توفر وظائف شاملة للمعالجة المسبقة للصور.
  • NumPy: الحزمة الأساسية للحسابات العددية في Python وغالبًا ما تُستخدم لمعالجة المصفوفات أثناء المعالجة المسبقة.
  • وثائقUltralytics : يوفر أدلة وأمثلة تتعلق بمعالجة البيانات لنماذج YOLO .

وباختصار، تُعد المعالجة المسبقة للبيانات خطوة لا غنى عنها في سير عمل التعلّم الآلي، مما يضمن أن تكون البيانات في أفضل حالة ممكنة لتدريب النموذج، مما يؤدي إلى أنظمة ذكاء اصطناعي أكثر موثوقية ودقة.

قراءة الكل