مسرد المصطلحات

تعزيز البيانات

عزز نماذج التعلم الآلي الخاصة بك من خلال زيادة البيانات. اكتشف تقنيات لتعزيز الدقة وتقليل الإفراط في التركيب وتحسين المتانة.

زيادة البيانات هي تقنية مهمة في التعلم الآلي (ML) تُستخدم لزيادة حجم وتنوع مجموعة بيانات التدريب بشكل مصطنع. ويتم تحقيق ذلك من خلال إنشاء نسخ معدلة وواقعية من عينات البيانات الموجودة. الهدف الأساسي هو تحسين أداء وقوة نماذج الذكاء الاصطناعي، خاصةً في مجال الرؤية الحاسوبية، من خلال تعريضها لمجموعة متنوعة من الظروف أثناء التدريب. يساعد ذلك على منع الإفراط في التكييف، حيث يتعلم النموذج بيانات التدريب بشكل جيد للغاية ولكنه يفشل في التعميم على البيانات الجديدة غير المرئية، مما يؤدي في النهاية إلى زيادة دقة النموذج.

كيفية عمل تعزيز البيانات

في الرؤية الحاسوبية، تتضمن زيادة البيانات تطبيق سلسلة من التحويلات على الصور. تم تصميم هذه التحويلات لمحاكاة الاختلافات في العالم الحقيقي التي قد يواجهها النموذج بعد النشر. تتضمن التقنيات الشائعة ما يلي:

  • التحويلات الهندسية: تغير هذه التحويلات الاتجاه المكاني للصورة. تتضمن الأمثلة على ذلك التدوير العشوائي، والقياس، والانتقالات (التحويل)، والقص، والقلب (أفقيًا أو رأسيًا). هذه تعلم النموذج أن يكون ثابتًا بالنسبة لموضع الكائن واتجاهه.
  • تحويلات مساحة اللون: هذه تعدل خصائص اللون للصورة. تجعل التعديلات على السطوع والتباين والتشبع وتدرج الألوان النموذج أكثر مرونة للتغيرات في ظروف الإضاءة.
  • تقنيات متقدمة: تتضمن الأساليب الأكثر تعقيدًا تغيير محتوى الصورة بشكل أكبر. يمكن أن يتضمن ذلك إضافة ضوضاء عشوائية (مثل ضوضاء غاوسي)، أو تطبيق تأثيرات ضبابية، أو استخدام طرق مثل Mixup، التي تنشئ صورًا جديدة عن طريق الجمع الخطي بين صورتين موجودتين بالفعل، و Cutout، التي تزيل مناطق من الصورة بشكل عشوائي. يمكنك معرفة المزيد عن هذه الطرق في الدليل النهائي لتكبير البيانات.

توفر العديد من أطر التعلم العميق، مثل PyTorch و TensorFlow، أدوات لزيادة البيانات. تقدم المكتبات المتخصصة مثل Albumentations مجموعة كبيرة من تقنيات التعزيز عالية الأداء، وتتكامل مع نماذج مثل Ultralytics YOLO11 لتنويع بيانات التدريب بسلاسة.

التطبيقات الواقعية

تعد زيادة البيانات ممارسة قياسية في العديد من المجالات لبناء أنظمة ذكاء اصطناعي أكثر موثوقية.

  1. الذكاء الاصطناعي في الرعاية الصحية: في تحليل الصور الطبية، غالبًا ما تكون مجموعات البيانات صغيرة بسبب لوائح خصوصية المريض وندرة بعض الأمراض. لتدريب نموذج للكشف عن الأورام في عمليات المسح الضوئي، تعمل تقنيات التعزيز مثل التدوير والقياس وتغييرات السطوع على إنشاء مجموعة أكثر تنوعًا من أمثلة التدريب. وهذا يساعد النموذج على تحديد الحالات الشاذة بدقة بغض النظر عن الاختلافات في معدات التصوير أو وضع المريض، مما يحسن موثوقية التشخيص.
  2. الذكاء الاصطناعي للسيارات: يتطلب تطوير أنظمة قوية للكشف عن الأجسام للمركبات ذاتية القيادة بيانات من سيناريوهات قيادة لا حصر لها. فبدلاً من جمع البيانات لكل حالة ممكنة، يمكن أن تحاكي التعزيزات طقساً مختلفاً (على سبيل المثال، إضافة أمطار أو ثلوج اصطناعية) وإضاءة (نهاراً وغسق وليل) وانسدادات (على سبيل المثال، أحد المشاة مخفي جزئياً بواسطة سيارة أخرى). وهذا يجعل نظام إدراك السيارة أكثر موثوقية في بيئات العالم الحقيقي التي لا يمكن التنبؤ بها.

تشمل التطبيقات الهامة الأخرى الذكاء الاصطناعي في التصنيع لمراقبة الجودة والذكاء الاصطناعي في الزراعة للكشف عن أمراض المحاصيل في ظل ظروف حقلية مختلفة.

تعزيز البيانات مقابل المفاهيم ذات الصلة

من المهم التمييز بين زيادة البيانات والتقنيات الأخرى المتعلقة بالبيانات.

  • البيانات التركيبية: في حين أن كلا الطريقتين تعززان مجموعات البيانات، إلا أنهما تعملان بشكل مختلف. حيث تعمل زيادة البيانات على تعديل البيانات الحقيقية الموجودة. في المقابل، ينشئ توليد البيانات الاصطناعية بيانات اصطناعية جديدة تمامًا من الصفر باستخدام المحاكاة أو النماذج التوليدية مثل شبكات GAN. بينما تعمل الزيادة على توسيع نطاق التباين حول البيانات المرصودة، يمكن للبيانات التركيبية إنشاء سيناريوهات جديدة غير موجودة في مجموعة البيانات الأصلية، وهو مفهوم تم استكشافه في هذه النظرة العامة على البيانات التركيبية في الرؤية الحاسوبية.
  • تنظيف البيانات: تنظيف البيانات هو جزء من خط المعالجة المسبقة للبيانات الأوسع نطاقًا الذي يركز على تحديد وتصحيح الأخطاء والتناقضات وعدم الدقة في مجموعة البيانات. والهدف منه هو تحسين جودة البيانات. من ناحية أخرى، تتعلق زيادة البيانات بزيادة كمية البيانات وتنوعها. وتُعدّ مجموعة البيانات النظيفة نقطة البداية المثالية قبل تطبيق عملية التعزيز.
  • نقل التعلم: تتضمن هذه التقنية استخدام نموذج تم تدريبه مسبقًا على مجموعة بيانات مرجعية كبيرة مثل ImageNet ثم ضبطه على مجموعة بيانات أصغر حجمًا خاصة بمهمة محددة. غالبًا ما يتم استخدام زيادة البيانات أثناء مرحلة الضبط الدقيق لتحسين الأداء بشكل أكبر ومنع الإفراط في ملاءمة البيانات الجديدة.

تعمل المنصات مثل منصة Ultralytics HUB على تبسيط عملية تدريب النموذج بالكامل، مع دمج زيادة البيانات كخطوة أساسية لمساعدة المستخدمين على بناء نماذج ذكاء اصطناعي قوية ومتطورة للرؤية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة