مسرد المصطلحات

تعزيز البيانات

عزز نماذج التعلم الآلي الخاصة بك من خلال زيادة البيانات. اكتشف تقنيات لتعزيز الدقة وتقليل الإفراط في التركيب وتحسين المتانة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

زيادة البيانات هي تقنية مستخدمة في التعلم الآلي (ML) لزيادة حجم وتنوع مجموعة بيانات التدريب بشكل مصطنع عن طريق إنشاء نسخ معدلة من نقاط البيانات الموجودة أو توليد بيانات اصطناعية جديدة منها. تساعد هذه العملية على تحسين أداء نماذج تعلّم الآلة وتعميمها وقوتها، خاصةً في مجالات مثل الرؤية الحاسوبية حيث يمكن أن يكون جمع كميات هائلة من البيانات المتنوعة أمرًا صعبًا ومكلفًا. من خلال عرض نماذج مثل Ultralytics YOLO إلى نطاق أوسع من الاختلافات أثناء التدريب، فإن زيادة البيانات تساعدها على تحسين أدائها على بيانات العالم الحقيقي غير المرئية.

كيفية عمل تعزيز البيانات

تطبق زيادة البيانات تحويلات مختلفة على نقاط البيانات الأصلية لإنشاء أمثلة جديدة ومعقولة. بالنسبة لبيانات الصور، تشمل التقنيات الشائعة ما يلي:

  • التحويلات الهندسية: تدوير الصور، وقياسها، ونقلها (تحويلها)، وقلبها (أفقيًا أو رأسيًا)، وقصها.
  • تحويلات مساحة اللون: ضبط السطوع أو التباين أو التشبع أو التدرج اللوني أو تطبيق ارتعاش الألوان.
  • حقن الضوضاء: إضافة ضوضاء عشوائية (مثل ضوضاء غاوسي) لمحاكاة عيوب المستشعر أو ظروف الإضاءة المنخفضة.
  • المسح العشوائي/الاقتطاع العشوائي: إزالة البقع العشوائية من الصورة لتشجيع النموذج على التركيز على أجزاء مختلفة من الجسم.
  • مزج الصور: الجمع بين صور متعددة، كما هو الحال في تكبير الفسيفساء (المستخدم في نماذج مثل YOLOv4) أو MixUp، لإنشاء عينات تدريب مركبة.

على الرغم من أن تقنيات التعزيز هي الأكثر بروزًا في مجال الرؤية الحاسوبية، إلا أنها موجودة أيضًا لأنواع البيانات الأخرى، مثل استبدال المرادفات أو الترجمة العكسية لبيانات النصوص في معالجة اللغات الطبيعية (NLP).

الأهمية والفوائد

تقدم زيادة البيانات العديد من المزايا الرئيسية في تطوير نموذج التعلم الآلي:

  • يقلل من مشاكل ندرة البيانات: يعمل على توسيع مجموعات البيانات المحدودة، مما يجعل من الممكن تدريب نماذج معقدة مثل الشبكات العصبية العميقة حتى في حالة عدم توفر كميات كبيرة من البيانات الأصلية.
  • يمنع الإفراط في الملاءمة: من خلال إدخال الاختلافات، يساعد التعزيز على منع النماذج من مجرد حفظ بيانات التدريب(الإفراط في التهيئة) ويشجعها على تعلم المزيد من الميزات القابلة للتعميم. اقرأ نصائحنا حول تدريب النماذج لمزيد من الاستراتيجيات.
  • تحسين متانة النموذج: التدريب على البيانات المعززة يجعل النماذج أقل حساسية للتغيرات في المدخلات، مثل التغيرات في الإضاءة أو الاتجاه أو المقياس، مما يؤدي إلى أداء أفضل في ظروف العالم الحقيقي المتنوعة.
  • كفاءة التكلفة والوقت: غالبًا ما تكون زيادة البيانات الموجودة أرخص وأسرع من جمع بيانات جديدة وتصنيفها.

التقنيات والأدوات

تعمل المكتبات المختلفة على تبسيط تنفيذ تقنيات زيادة البيانات. بالنسبة لمهام الرؤية الحاسوبية، تشمل الأدوات الشائعة ما يلي:

تتضمن نماذج Ultralytics العديد من تقنيات التعزيز المدمجة، ويمكن للمستخدمين إدارة مجموعات البيانات والنماذج باستخدام منصات مثل Ultralytics HUB.

التطبيقات الواقعية

تُستخدم زيادة البيانات على نطاق واسع في مختلف المجالات:

  1. التصوير الطبي: في مجال الرعاية الصحية، قد يكون من الصعب الحصول على مجموعات بيانات كبيرة ومتنوعة من الصور الطبية (مثل الأشعة السينية أو الأشعة المقطعية) بسبب لوائح الخصوصية وندرة بعض الحالات. تساعد زيادة البيانات (مثل التدوير، والتكبير، والتكبير، وتعديل التباين) في تدريب نماذج قوية لمهام مثل اكتشاف الأورام أو تصنيف الأمراض، مما يحسن دقة التشخيص. هذا جزء أساسي من تطوير الذكاء الاصطناعي في مجال الرعاية الصحية.
  2. السيارات ذاتية القيادة: تعتمد السيارات ذاتية القيادة بشكل كبير على اكتشاف الأجسام لإدراك محيطها. يساعد تعزيز صور التدريب من خلال محاكاة ظروف الطقس المختلفة (المطر والضباب) أو الإضاءة (ليلاً ونهاراً) أو إضافة انسدادات أو وجهات نظر مختلفة للأجسام على ضمان عمل نظام الإدراك في السيارة بشكل موثوق في سيناريوهات القيادة المتنوعة. وهذا يعزز السلامة في الذكاء الاصطناعي لتطبيقات السيارات.

تعزيز البيانات مقابل البيانات التركيبية

على الرغم من ارتباط زيادة البيانات ببعضها البعض، إلا أن زيادة البيانات تختلف عن توليد البيانات الاصطناعية. تتضمن زيادة البيانات عادةً تطبيق التحويلات على نقاط البيانات الحقيقية الموجودة لإنشاء نسخ معدلة بشكل طفيف. في المقابل، تشير البيانات التركيبية إلى البيانات الجديدة كليًا التي يتم توليدها بشكل مصطنع، وغالبًا ما يتم ذلك باستخدام المحاكاة أو الخوارزميات أو النماذج التوليدية مثل شبكات GAN، دون البدء بالضرورة من نقطة بيانات حقيقية. تهدف كلتا التقنيتين إلى تحسين مجموعات البيانات، ولكن يمكن للبيانات التركيبية أن تخلق سيناريوهات غير موجودة في البيانات الأصلية على الإطلاق، بينما تزيد الزيادة في المقام الأول من التباين حول البيانات الموجودة.

قراءة الكل