تتضمن المعالجة المسبقة للبيانات التقنيات الأساسية المستخدمة لتنظيف البيانات الأولية وتحويلها وتنظيمها إلى تنسيق منظم ومناسب قبل استخدامها لتدريب نماذج التعلم الآلي (ML). غالبًا ما تكون البيانات الأولية التي يتم جمعها من مصادر مختلفة فوضوية، حيث تحتوي على قيم مفقودة أو تناقضات أو ضوضاء أو أخطاء. تعالج المعالجة المسبقة هذه المشكلات، مما يعزز جودة البيانات التي تُترجم مباشرةً إلى تحسين أداء ودقة وموثوقية نماذج التعلم الآلي. تُعد هذه الخطوة أساسية في أي مشروع يعتمد على البيانات، بما في ذلك تلك الموجودة في الذكاء الاصطناعي والرؤية الحاسوبية.
ما أهمية المعالجة المسبقة للبيانات؟
ينطبق مبدأ "لا فائدة من القمامة، لا فائدة منها" بشدة على التعلم الآلي. تتعلم النماذج الأنماط مباشرةً من البيانات التي يتم تدريبها عليها. إذا كانت البيانات المدخلة معيبة، فسيتعلم النموذج أنماطًا غير صحيحة أو غير ذات صلة، مما يؤدي إلى تنبؤات ضعيفة ونتائج غير موثوقة. تُعد البيانات عالية الجودة والمُعدّة جيدًا أمرًا بالغ الأهمية لبناء نماذج فعالة، مثل Ultralytics YOLO للمهام الصعبة مثل اكتشاف الأجسام. تساهم المعالجة المسبقة المناسبة للبيانات بشكل كبير من خلال:
- تحسين دقة النموذج: تساعد البيانات النظيفة والمنظمة بشكل جيد النموذج على تعلم أنماط ذات معنى بشكل أكثر فعالية.
- تعزيز الكفاءة: يمكن للمعالجة المسبقة تقليل الموارد الحسابية اللازمة للتدريب من خلال تبسيط البيانات أو تقليل أبعادها.
- الحد من الإفراط في التركيب: يمكن لمعالجة الضوضاء والقيم المتطرفة أن تمنع النموذج من تعلم هذه التفاصيل غير ذات الصلة، مما يحسن قدرته على التعميم على البيانات الجديدة وتجنب الإفراط في التكييف.
- ضمان الموثوقية: يؤدي تنسيق البيانات المتسق إلى سلوك نموذجي أكثر استقرارًا ويمكن الاعتماد عليه أثناء التدريب والاستدلال.
تقنيات المعالجة المسبقة الشائعة للبيانات
يتم تطبيق تقنيات مختلفة أثناء المعالجة المسبقة للبيانات، وغالبًا ما يتم الجمع بينها، اعتمادًا على نوع البيانات ومهمة التعلم الآلي المحددة. تشمل التقنيات الرئيسية ما يلي:
- تنظيف البيانات: ويتضمن ذلك تحديد الأخطاء وتصحيحها، والتعامل مع القيم المفقودة (على سبيل المثال، من خلال التضمين أو الإزالة)، والتعامل مع القيم المتطرفة أو نقاط البيانات الصاخبة. تُستخدم أدوات مثل Pandas بشكل شائع لهذا الغرض في Python.
- تحويل البيانات: تقوم هذه الخطوة بتعديل البيانات إلى تنسيق أكثر ملاءمة.
- القياس: تساعد تقنيات مثل التطبيع (قياس البيانات إلى نطاق، عادةً من 0 إلى 1) أو التوحيد القياسي (قياس البيانات بحيث يكون متوسطها صفرًا وتباينها وحدة) الخوارزميات الحساسة لمقاييس السمات، مثل النماذج القائمة على النسب المتدرجة. تعرّف على المزيد حول تقنيات القياس في وثائق المعالجة المسبقة ل Scikit-learn.
- الترميز: تحويل السمات التصنيفية (مثل التسميات النصية) إلى تمثيلات رقمية (مثل الترميز من نقطة واحدة) يمكن للنماذج معالجتها.
- هندسة الميزات: إنشاء ميزات جديدة قد تكون أكثر إفادة من الميزات الحالية لتحسين أداء النموذج. وهذا يتطلب معرفة المجال والإبداع.
- استخراج الميزات: استخلاص مجموعة أصغر من الميزات تلقائيًا من البيانات الأصلية مع الحفاظ على المعلومات الأساسية. وغالبًا ما يتم ذلك باستخدام تقنيات مثل تحليل المكونات الرئيسية (PCA).
- تقليل الأبعاد: تقليل عدد ميزات الإدخال لتبسيط النموذج، وتقليل وقت التدريب، والتخفيف من مخاطر الإفراط في التركيب، وهو أمر مهم بشكل خاص للبيانات الضخمة.
- المعالجة المسبقة الخاصة بالصور: بالنسبة لمهام الرؤية الحاسوبية، تشمل الخطوات الشائعة تغيير حجم الصور إلى بُعد ثابت، وتحويل مساحات الألوان (على سبيل المثال، BGR إلى RGB)، وضبط السطوع أو التباين، وتطبيق مرشحات للحد من الضوضاء باستخدام مكتبات مثل OpenCV. يوفر Ultralytics إرشادات حول المعالجة المسبقة للبيانات المشروحة لنماذج YOLO .
التطبيقات الواقعية
تُعد المعالجة المسبقة للبيانات أمرًا بالغ الأهمية في عدد لا يُحصى من تطبيقات الذكاء الاصطناعي/التعلم الآلي:
- تحليل الصور الطبية: قبل أن يتمكن نموذج الذكاء الاصطناعي من تحليل فحوصات التصوير بالرنين المغناطيسي أو التصوير المقطعي المحوسب بحثًا عن أي تشوهات مثل الأورام(مثال مجموعة بيانات أورام الدماغ)، يجب معالجة الصور مسبقًا. يتضمن ذلك غالبًا الحد من الضوضاء باستخدام المرشحات، وتطبيع الشدة لتوحيد مستويات السطوع عبر عمليات المسح والأجهزة المختلفة، وتسجيل الصور لمحاذاة عمليات المسح المتعددة. تضمن هذه الخطوات أن يتلقى النموذج مدخلات متسقة، مما يحسّن قدرته على اكتشاف الحالات الشاذة الدقيقة بدقة. وهذا أمر حيوي لتطبيقات الذكاء الاصطناعي في مجال الرعاية الصحية.
- السيارات ذاتية القيادة: تعتمد السيارات ذاتية القيادة على أجهزة استشعار مثل الكاميرات و LiDAR. وتحتاج البيانات الأولية من هذه المستشعرات إلى معالجة مسبقة واسعة النطاق. قد تحتاج صور الكاميرا إلى تغيير الحجم وتصحيح الألوان وتعديل السطوع للتعامل مع ظروف الإضاءة المختلفة. قد تحتاج بيانات سحابة نقاط ليدار إلى تصفية لإزالة الضوضاء أو النقاط الأرضية. تضمن هذه المعالجة المسبقة حصول أنظمة الكشف عن الأجسام وتتبعها على بيانات نظيفة وموحدة لتحديد المشاة والمركبات والعوائق بشكل موثوق، وهو أمر بالغ الأهمية للسلامة في تطبيقات الذكاء الاصطناعي في السيارات.
المعالجة المسبقة للبيانات مقابل المفاهيم ذات الصلة
من المفيد التمييز بين المعالجة المسبقة للبيانات والمصطلحات ذات الصلة الوثيقة:
يمكن تبسيط إدارة مجموعات البيانات وتطبيق خطوات المعالجة المسبقة باستخدام منصات مثل Ultralytics HUB، التي توفر أدوات لإدارة مجموعات البيانات وتدريب النماذج.