Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تنظيف البيانات

تنظيف البيانات الرئيسية لتحسين دقة نموذج الذكاء الاصطناعي. تعلم تقنيات إزالة الأخطاء ومعالجة القيم المفقودة وإعداد مجموعات بيانات نظيفة لـ Ultralytics .

تنظيف البيانات هو عملية حاسمة للكشف عن السجلات التالفة أو غير الدقيقة أو غير ذات الصلة وتصحيحها (أو إزالتها) من مجموعة سجلات أو جدول أو قاعدة بيانات. في مجال الذكاء الاصطناعي (AI) و التعلم الآلي (ML)، غالبًا ما تُعتبر هذه الخطوة الجزء الأكثر استهلاكًا للوقت ولكنه ضروري في سير العمل. قبل أن يتمكن نموذج مثل YOLO26 من تعلم التعرف على الكائنات بشكل فعال، يجب تنقية بيانات التدريب من الأخطاء لمنع ظاهرة "Garbage In, Garbage Out" (القمامة تدخل، القمامة تخرج)، حيث تؤدي المدخلات ذات الجودة الرديئة إلى مخرجات غير موثوقة.

أهمية سلامة البيانات في الذكاء الاصطناعي

تعتمد نماذج الرؤية الحاسوبية عالية الأداء بشكل كبير على جودة مجموعات البيانات التي تستخدمها. إذا كانت مجموعة البيانات تحتوي على صور ذات علامات خاطئة أو مكررة أو ملفات تالفة ، فسيواجه النموذج صعوبة في تعميم الأنماط، مما يؤدي إلى التكيف المفرط أو ضعف دقة الاستدلال. تعمل عملية تنظيف البيانات الفعالة على تحسين موثوقية النماذج التنبؤية وتضمن أن الخوارزمية تتعلم من الإشارات الصحيحة بدلاً من الضوضاء.

تقنيات تنظيف البيانات الشائعة

يستخدم الممارسون استراتيجيات مختلفة لتحسين مجموعات البيانات الخاصة بهم باستخدام أدوات مثل Pandas للبيانات الجدولية أو أدوات الرؤية المتخصصة.

  • التعامل مع القيم المفقودة: يتضمن ذلك إما إزالة السجلات التي تحتوي على بيانات مفقودة أو استخدام تقنيات الاستكمال لملء الفجوات بناءً على المتوسطات الإحصائية أو أقرب الجيران.
  • إزالة التكرارات: يمكن أن تؤدي الصور المكررة في مجموعة التدريب إلى تحيز النموذج عن غير قصد. تضمن إزالة هذه الصور عدم حفظ النموذج لأمثلة محددة، مما يساعد على التخفيف من تحيز مجموعة البيانات.
  • كشف القيم المتطرفة: من الضروري تحديد ومعالجة الشذوذات أو القيم المتطرفة التي تنحرف بشكل كبير عن القاعدة، لأنها يمكن أن تشوه التحليل الإحصائي وأوزان النموذج.
  • الإصلاح الهيكلي: يشمل ذلك إصلاح الأخطاء المطبعية في تسميات الفئات (على سبيل المثال، تصحيح "Car" مقابل "car") لضمان اتساق الفئات.

تطبيقات واقعية

تعد عملية تنظيف البيانات أمرًا محوريًا في مختلف الصناعات التي يتم فيها استخدام الذكاء الاصطناعي.

التمييز بين تنظيف البيانات والمعالجة المسبقة

على الرغم من استخدامهما بشكل متبادل في كثير من الأحيان، إلا أن تنظيف البيانات يختلف عن المعالجة المسبقة للبيانات. يركز تنظيف البيانات على إصلاح الأخطاء وإزالة البيانات "السيئة". في المقابل، تتضمن المعالجة المسبقة تحويل البيانات النظيفة إلى تنسيق مناسب للنموذج، مثل تغيير حجم الصورة، التطبيع، أو تطبيق زيادة البيانات لزيادة التنوع.

أتمتة عمليات فحص الجودة

تدمج سير العمل الحديثة، مثل تلك المتوفرة على Ultralytics عمليات فحص آلية لتحديد الصور التالفة أو عدم اتساق العلامات قبل بدء التدريب. فيما يلي Python بسيط Python يوضح كيفية فحص ملفات الصور التالفة وتحديدها باستخدام مكتبة Pillow القياسية ، وهي خطوة شائعة قبل إدخال البيانات في نموذج مثل YOLO26.

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن