تنظيف البيانات الرئيسية لتحسين دقة نموذج الذكاء الاصطناعي. تعلم تقنيات إزالة الأخطاء ومعالجة القيم المفقودة وإعداد مجموعات بيانات نظيفة لـ Ultralytics .
تنظيف البيانات هو عملية حاسمة للكشف عن السجلات التالفة أو غير الدقيقة أو غير ذات الصلة وتصحيحها (أو إزالتها) من مجموعة سجلات أو جدول أو قاعدة بيانات. في مجال الذكاء الاصطناعي (AI) و التعلم الآلي (ML)، غالبًا ما تُعتبر هذه الخطوة الجزء الأكثر استهلاكًا للوقت ولكنه ضروري في سير العمل. قبل أن يتمكن نموذج مثل YOLO26 من تعلم التعرف على الكائنات بشكل فعال، يجب تنقية بيانات التدريب من الأخطاء لمنع ظاهرة "Garbage In, Garbage Out" (القمامة تدخل، القمامة تخرج)، حيث تؤدي المدخلات ذات الجودة الرديئة إلى مخرجات غير موثوقة.
تعتمد نماذج الرؤية الحاسوبية عالية الأداء بشكل كبير على جودة مجموعات البيانات التي تستخدمها. إذا كانت مجموعة البيانات تحتوي على صور ذات علامات خاطئة أو مكررة أو ملفات تالفة ، فسيواجه النموذج صعوبة في تعميم الأنماط، مما يؤدي إلى التكيف المفرط أو ضعف دقة الاستدلال. تعمل عملية تنظيف البيانات الفعالة على تحسين موثوقية النماذج التنبؤية وتضمن أن الخوارزمية تتعلم من الإشارات الصحيحة بدلاً من الضوضاء.
يستخدم الممارسون استراتيجيات مختلفة لتحسين مجموعات البيانات الخاصة بهم باستخدام أدوات مثل Pandas للبيانات الجدولية أو أدوات الرؤية المتخصصة.
تعد عملية تنظيف البيانات أمرًا محوريًا في مختلف الصناعات التي يتم فيها استخدام الذكاء الاصطناعي.
على الرغم من استخدامهما بشكل متبادل في كثير من الأحيان، إلا أن تنظيف البيانات يختلف عن المعالجة المسبقة للبيانات. يركز تنظيف البيانات على إصلاح الأخطاء وإزالة البيانات "السيئة". في المقابل، تتضمن المعالجة المسبقة تحويل البيانات النظيفة إلى تنسيق مناسب للنموذج، مثل تغيير حجم الصورة، التطبيع، أو تطبيق زيادة البيانات لزيادة التنوع.
تدمج سير العمل الحديثة، مثل تلك المتوفرة على Ultralytics عمليات فحص آلية لتحديد الصور التالفة أو عدم اتساق العلامات قبل بدء التدريب. فيما يلي Python بسيط Python يوضح كيفية فحص ملفات الصور التالفة وتحديدها باستخدام مكتبة Pillow القياسية ، وهي خطوة شائعة قبل إدخال البيانات في نموذج مثل YOLO26.
from pathlib import Path
from PIL import Image
def verify_images(dataset_path):
"""Iterates through a directory to identify corrupt images."""
for img_path in Path(dataset_path).glob("*.jpg"):
try:
with Image.open(img_path) as img:
img.verify() # Checks file integrity
except (OSError, SyntaxError):
print(f"Corrupt file found: {img_path}")
# Run verification on your dataset
verify_images("./coco8/images/train")