مسرد المصطلحات

تنظيف البيانات

إتقان تنظيف البيانات لمشاريع الذكاء الاصطناعي والتعلم الآلي. تعلم تقنيات لإصلاح الأخطاء، وتحسين جودة البيانات، وتعزيز أداء النموذج بفعالية!

تنظيف البيانات هي العملية الأساسية لتحديد وتصحيح أو إزالة الأخطاء والتناقضات وعدم الدقة والسجلات الفاسدة من مجموعة البيانات. وهي تضمن دقة البيانات واتساقها وقابليتها للاستخدام، وهو أمر أساسي لبناء نماذج موثوقة وفعالة للذكاء الاصطناعي والتعلم الآلي. فكّر في الأمر وكأنه إعداد مكونات عالية الجودة قبل الطهي؛ فبدون بيانات نظيفة، من المرجح أن يكون الناتج النهائي (نموذج الذكاء الاصطناعي) معيبًا، وفقًا لمبدأ "القمامة في، القمامة خارجًا" الشائع في علم البيانات. تؤدي البيانات النظيفة إلى أداء أفضل للنموذج، ورؤى أكثر جدارة بالثقة، وتقليل التحيز في الذكاء الاصطناعي.

الملاءمة في الذكاء الاصطناعي والتعلم الآلي

في مجال الذكاء الاصطناعي وتعلم الآلة، تؤثر جودة بيانات التدريب بشكل مباشر على دقة النموذج وقدرته على التعميم على البيانات الجديدة غير المرئية. ويُعد تنظيف البيانات خطوة أولى حاسمة في سير عمل تعلّم الآلة، وغالبًا ما تسبق مهام مثل هندسة الميزات وتدريب النموذج. نماذج مثل Ultralytics YOLOالمستخدمة في المهام الصعبة مثل اكتشاف الكائنات أو تجزئة النماذج، تعتمد بشكل كبير على مجموعات بيانات نظيفة وجيدة التنظيم للتعلم بفعالية. يمكن أن تؤدي الأخطاء مثل الصور ذات التسميات الخاطئة أو تنسيقات المربعات المحدودة غير المتسقة أو القيم المفقودة أو الإدخالات المكررة إلى تدهور الأداء بشكل كبير وتؤدي إلى تنبؤات غير موثوقة في تطبيقات العالم الحقيقي. تساعد معالجة هذه المشكلات من خلال تنظيف البيانات على ضمان أن يتعلم النموذج أنماطًا ذات مغزى بدلاً من الضوضاء أو الأخطاء الموجودة في البيانات الأولية، مما يمنع حدوث مشكلات مثل الإفراط في التهيئة.

مهام تنظيف البيانات الشائعة

ينطوي تنظيف البيانات على تقنيات مختلفة مصممة خصيصًا لتتناسب مع المشكلات المحددة في مجموعة البيانات. وتشمل المهام الشائعة ما يلي:

التعامل مع البيانات المفقودة: تحديد المدخلات ذات القيم المفقودة وتقرير ما إذا كان يجب إزالتها أو تقديرها (التضمين) أو استخدام خوارزميات قوية للبيانات المفقودة. توجد استراتيجيات مختلفة للتعامل مع البيانات المفقودة اعتمادًا على السياق.
تصحيح الأخطاء والتناقضات: إصلاح الأخطاء المطبعية، وتوحيد الوحدات أو التنسيقات (مثل تنسيقات التواريخ، والأحرف الكبيرة)، وحل نقاط البيانات المتناقضة. هذا أمر بالغ الأهمية للحفاظ على سلامة البيانات.
إزالة السجلات المكررة: تحديد وإزالة الإدخالات المتطابقة أو شبه المتطابقة التي يمكن أن تحرف التحليل أو التدريب على النموذج.
التعامل مع القيم المتطرفة: الكشف عن نقاط البيانات التي تختلف بشكل كبير عن الملاحظات الأخرى. اعتمادًا على السبب، يمكن إزالة القيم المتطرفة أو تصحيحها أو الاحتفاظ بها. يمكن استخدام طرق مختلفة للكشف عن القيم المتطرفة.
معالجة الأخطاء الهيكلية: إصلاح المشكلات المتعلقة بهيكل البيانات، مثل اصطلاحات التسمية غير المتسقة أو الإدخالات في غير محلها.

التطبيقات الواقعية

تنظيف البيانات أمر لا غنى عنه في العديد من تطبيقات الذكاء الاصطناعي/التعلم الآلي:

تحليل الصور الطبية: في مجموعات بيانات الرعاية الصحية مثل مجموعة بيانات أورام الدماغ، يتضمن تنظيف البيانات إزالة عمليات المسح منخفضة الجودة أو التالفة (مثل الصور الضبابية)، وتوحيد تنسيقات الصور (مثل DICOM)، وتصحيح التشخيصات ذات التسميات الخاطئة، وضمان الحفاظ على خصوصية بيانات المريض وفقًا للوائح مثل HIPAA. البيانات النظيفة أمر حيوي لتدريب نماذج تشخيصية موثوقة. تشدد المعاهد الوطنية للصحة (NIH) على جودة البيانات في الأبحاث الطبية الحيوية. استكشف المزيد عن الذكاء الاصطناعي في الرعاية الصحية.
إدارة المخزون بالتجزئة: بالنسبة للأنظمة التي تستخدم الرؤية الحاسوبية لتتبع المخزون، مثل تلك التي يُحتمل أن تستخدم مجموعة بيانات SKU-110K، يتضمن التنظيف تصحيح المنتجات التي تم تحديدها بشكل خاطئ في الصور، وإزالة الإدخالات المكررة الناتجة عن أخطاء المسح الضوئي، وتوحيد أسماء المنتجات أو الرموز عبر مصادر البيانات المختلفة، ومعالجة التناقضات في سجلات المبيعات المستخدمة للتنبؤ بالطلب أو أنظمة التوصيات. وهذا يضمن دقة جرد المخزون وعمليات سلسلة التوريد الفعالة، مما يساهم في تحقيق كفاءة البيع بالتجزئة باستخدام الذكاء الاصطناعي. غالبًا ما تعتمد المنصات مثل Google Cloud AI للبيع بالتجزئة على بيانات مدخلات نظيفة.