عزز نماذج التعلم الآلي الخاصة بك من خلال زيادة البيانات. اكتشف تقنيات لتعزيز الدقة وتقليل الإفراط في التركيب وتحسين المتانة.
زيادة البيانات هي تقنية مستخدمة في التعلم الآلي (ML) لزيادة حجم وتنوع مجموعة بيانات التدريب بشكل مصطنع عن طريق إنشاء نسخ معدلة من نقاط البيانات الموجودة أو توليد بيانات اصطناعية جديدة منها. تساعد هذه العملية على تحسين أداء نماذج تعلّم الآلة وتعميمها وقوتها، خاصةً في مجالات مثل الرؤية الحاسوبية حيث يمكن أن يكون جمع كميات هائلة من البيانات المتنوعة أمرًا صعبًا ومكلفًا. من خلال عرض نماذج مثل Ultralytics YOLO إلى نطاق أوسع من الاختلافات أثناء التدريب، فإن زيادة البيانات تساعدها على تحسين أدائها على بيانات العالم الحقيقي غير المرئية.
تطبق زيادة البيانات تحويلات مختلفة على نقاط البيانات الأصلية لإنشاء أمثلة جديدة ومعقولة. بالنسبة لبيانات الصور، تشمل التقنيات الشائعة ما يلي:
على الرغم من أن تقنيات التعزيز هي الأكثر بروزًا في مجال الرؤية الحاسوبية، إلا أنها موجودة أيضًا لأنواع البيانات الأخرى، مثل استبدال المرادفات أو الترجمة العكسية لبيانات النصوص في معالجة اللغات الطبيعية (NLP).
تقدم زيادة البيانات العديد من المزايا الرئيسية في تطوير نموذج التعلم الآلي:
تعمل المكتبات المختلفة على تبسيط تنفيذ تقنيات زيادة البيانات. بالنسبة لمهام الرؤية الحاسوبية، تشمل الأدوات الشائعة ما يلي:
تتضمن نماذج Ultralytics العديد من تقنيات التعزيز المدمجة، ويمكن للمستخدمين إدارة مجموعات البيانات والنماذج باستخدام منصات مثل Ultralytics HUB.
تُستخدم زيادة البيانات على نطاق واسع في مختلف المجالات:
على الرغم من ارتباط زيادة البيانات ببعضها البعض، إلا أن زيادة البيانات تختلف عن توليد البيانات الاصطناعية. تتضمن زيادة البيانات عادةً تطبيق التحويلات على نقاط البيانات الحقيقية الموجودة لإنشاء نسخ معدلة بشكل طفيف. في المقابل، تشير البيانات التركيبية إلى البيانات الجديدة كليًا التي يتم توليدها بشكل مصطنع، وغالبًا ما يتم ذلك باستخدام المحاكاة أو الخوارزميات أو النماذج التوليدية مثل شبكات GAN، دون البدء بالضرورة من نقطة بيانات حقيقية. تهدف كلتا التقنيتين إلى تحسين مجموعات البيانات، ولكن يمكن للبيانات التركيبية أن تخلق سيناريوهات غير موجودة في البيانات الأصلية على الإطلاق، بينما تزيد الزيادة في المقام الأول من التباين حول البيانات الموجودة.