اكتشف كيف تساعد زيادة بيانات الصور نماذج الذكاء الاصطناعي للرؤية على التعلم بشكل أفضل، وتعزيز الدقة، والأداء بشكل أكثر فعالية في مواقف العالم الحقيقي.
نظرًا لازدهار الذكاء الاصطناعي، أصبحت ظواهر مثل الروبوتات التي تعمل في المصانع والسيارات ذاتية القيادة التي تتنقل في الشوارع تتصدر عناوين الأخبار في كثير من الأحيان. يعمل الذكاء الاصطناعي على تغيير الطريقة التي تتفاعل بها الآلات مع العالم، من تحسين التصوير الطبي إلى المساعدة في مراقبة الجودة على خطوط الإنتاج.
يأتي جزء كبير من هذا التقدم من الرؤية الحاسوبية، وهو فرع من فروع الذكاء الاصطناعي يتيح للآلات فهم الصور وتفسيرها. تماماً مثلما يتعلم البشر التعرف على الأشياء والأنماط بمرور الوقت، فإن نماذج الذكاء الاصطناعي للرؤية مثل Ultralytics YOLO11 تحتاج إلى التدريب على كميات كبيرة من بيانات الصور لتطوير فهمها البصري.
ومع ذلك، ليس من السهل دائماً جمع مثل هذا الكم الهائل من البيانات المرئية. على الرغم من أن مجتمع الرؤية الحاسوبية قد أنشأ العديد من مجموعات البيانات الكبيرة، إلا أنه لا يزال بإمكانه إغفال بعض الاختلافات - مثل الصور التي تحتوي على أشياء في إضاءة منخفضة، أو عناصر مخفية جزئياً، أو أشياء يتم عرضها من زوايا مختلفة. يمكن أن تكون هذه الاختلافات مربكة لنماذج الرؤية الحاسوبية التي تم تدريبها فقط على ظروف محددة.
زيادة بيانات الصور هي تقنية تحل هذه المشكلة عن طريق إدخال اختلافات جديدة في البيانات الموجودة. من خلال إجراء تغييرات على الصور، مثل تعديل الألوان أو التدوير أو تغيير المنظور، تصبح مجموعة البيانات أكثر تنوعًا، مما يساعد نماذج الذكاء الاصطناعي البصري على التعرف على الأشياء بشكل أفضل في مواقف العالم الحقيقي.
سنستكشف في هذه المقالة كيفية عمل تكبير بيانات الصور وتأثيره على تطبيقات الرؤية الحاسوبية.
لنفترض أنك تحاول التعرف على صديق في حشد من الناس، لكنه يرتدي نظارات شمسية أو يقف في مكان مظلل. حتى مع وجود هذه التغييرات الطفيفة في المظهر، فإنك لا تزال تعرف من هم. من ناحية أخرى، قد يواجه نموذج الذكاء الاصطناعي للرؤية صعوبة في التعامل مع مثل هذه الاختلافات ما لم يتم تدريبه على التعرف على الأشياء في إعدادات مختلفة.
تعمل زيادة بيانات الصور على تحسين أداء نموذج الرؤية الحاسوبية من خلال إضافة نسخ معدلة من الصور الموجودة إلى بيانات التدريب، بدلاً من جمع آلاف الصور الجديدة.
تؤدي التغييرات التي يتم إدخالها على الصور مثل التقليب أو التدوير أو تعديل السطوع أو إضافة تشوهات صغيرة إلى تعريض نماذج الذكاء الاصطناعي للرؤية إلى مجموعة واسعة من الظروف. بدلاً من الاعتماد على مجموعات البيانات الضخمة، يمكن للنماذج أن تتعلم بكفاءة من مجموعات بيانات التدريب الأصغر حجماً مع الصور المعززة.
فيما يلي بعض الأسباب الرئيسية التي تجعل التعزيز ضرورياً للرؤية الحاسوبية:
تُعد زيادة بيانات الصور مفيدة بشكل خاص عندما يحتاج نموذج الرؤية الحاسوبية إلى التعرف على الأجسام في مواقف مختلفة ولكن ليس لديه ما يكفي من الصور المتنوعة.
على سبيل المثال، إذا كان الباحثون يدرّبون نموذج ذكاء اصطناعي بصري لتحديد الأنواع النادرة تحت الماء التي نادراً ما يتم تصويرها، فقد تكون مجموعة البيانات صغيرة أو تفتقر إلى التباين. من خلال زيادة الصور - تعديل الألوان لمحاكاة أعماق المياه المختلفة، أو إضافة ضوضاء لمحاكاة الظروف المظلمة، أو تغيير الأشكال قليلاً لمحاكاة الحركة الطبيعية - يمكن للنموذج أن يتعلم اكتشاف الأجسام تحت الماء بدقة أكبر.
إليك بعض المواقف الأخرى التي تُحدث فيها الزيادة فرقاً كبيراً:
في الأيام الأولى للرؤية الحاسوبية، تضمنت زيادة بيانات الصور في المقام الأول تقنيات معالجة الصور الأساسية مثل التقليب والتدوير والقص لزيادة تنوع مجموعة البيانات. مع تحسن الذكاء الاصطناعي، تم إدخال أساليب أكثر تقدمًا، مثل تعديل الألوان (تحويلات مساحة الألوان)، وشحذ الصور أو تشويشها (مرشحات النواة)، ومزج صور متعددة معًا (مزج الصور) لتعزيز التعلم.
يمكن أن تحدث الزيادة قبل وأثناء تدريب النموذج. قبل التدريب، يمكن إضافة صور معدّلة إلى مجموعة البيانات لتوفير المزيد من التنوع. أثناء التدريب، يمكن تغيير الصور بشكل عشوائي في الوقت الفعلي، مما يساعد نماذج الذكاء الاصطناعي المرئي على التكيف مع الظروف المختلفة.
يتم إجراء هذه التغييرات باستخدام التحويلات الرياضية. على سبيل المثال، يؤدي التدوير إلى إمالة الصورة، ويؤدي الاقتصاص إلى إزالة أجزاء لمحاكاة مناظر مختلفة، وتغييرات السطوع تحاكي اختلافات الإضاءة. يعمل التعتيم على تنعيم الصور، ويجعل التوضيح التفاصيل أكثر وضوحًا، ويجمع مزج الصور بين أجزاء من صور مختلفة. يمكن لأطر عمل وأدوات الذكاء الاصطناعي للرؤية مثل OpenCV و TensorFlow و PyTorch أتمتة هذه العمليات، مما يجعل التعزيز سريعًا وفعالاً.
والآن بعد أن ناقشنا ما هي زيادة بيانات الصور، دعونا نلقي نظرة فاحصة على بعض تقنيات زيادة بيانات الصور الأساسية المستخدمة لتحسين بيانات التدريب.
غالباً ما تحتاج نماذج الرؤية الحاسوبية مثل YOLO11 إلى التعرف على الأجسام من زوايا ووجهات نظر مختلفة. للمساعدة في ذلك، يمكن قلب الصور أفقيًا أو رأسيًا بحيث يتعلم نموذج الذكاء الاصطناعي التعرف على الأجسام من وجهات نظر مختلفة.
وبالمثل، يؤدي تدوير الصور إلى تغيير زاويتها قليلاً، مما يسمح للنموذج بتحديد الأجسام من وجهات نظر متعددة. كما أن تحويل الصور في اتجاهات مختلفة (الترجمة) يساعد النماذج على التكيف مع التغييرات الموضعية الصغيرة. تضمن هذه التحويلات تعميم النماذج بشكل أفضل على ظروف العالم الحقيقي حيث لا يمكن التنبؤ بموضع الأجسام في الصورة.
فيما يتعلق بحلول الرؤية الحاسوبية في العالم الحقيقي، يمكن أن تظهر الأجسام في الصور على مسافات وأحجام مختلفة. يجب أن تكون نماذج الذكاء الاصطناعي للرؤية قوية بما يكفي لاكتشافها بغض النظر عن هذه الاختلافات.
لتحسين القدرة على التكيف، يمكن استخدام طرق التعزيز التالية:
تساعد هذه التعديلات نماذج الرؤية الحاسوبية في التعرف على الأجسام حتى لو تغير حجمها أو شكلها قليلاً.
يمكن أن تظهر الأجسام في الصور بشكل مختلف اعتماداً على زاوية الكاميرا، مما يجعل التعرف على الأجسام في نماذج الرؤية الحاسوبية أمراً صعباً. ولمساعدة النماذج على التعامل مع هذه الاختلافات، يمكن لتقنيات التعزيز ضبط كيفية عرض الأجسام في الصور.
على سبيل المثال، يمكن أن تؤدي تحويلات المنظور إلى تغيير زاوية الرؤية، مما يجعل الكائن يبدو كما لو كان يُرى من موضع مختلف. يسمح ذلك لنماذج Vision AI بالتعرّف على الأشياء حتى عندما تكون مائلة أو ملتقطة من وجهة نظر غير معتادة.
مثال آخر هو التحويل المرن الذي يقوم بتمديد الصور أو ثنيها أو تشويهها لمحاكاة التشوهات الطبيعية بحيث تظهر الأجسام كما لو كانت في انعكاسات أو تحت الضغط.
يمكن لظروف الإضاءة واختلافات الألوان أن تؤثر بشكل كبير على كيفية تفسير نماذج الذكاء الاصطناعي للرؤية للصور. نظرًا لأن الأجسام يمكن أن تظهر بشكل مختلف في ظل إعدادات الإضاءة المختلفة، يمكن أن تساعد تقنيات التعزيز التالية في التعامل مع هذه المواقف:
حتى الآن، لم نستكشف حتى الآن سوى تقنيات التعزيز التي تقوم بتعديل صورة واحدة. ومع ذلك، تتضمن بعض الأساليب المتقدمة دمج صور متعددة لتحسين تعلم الذكاء الاصطناعي.
على سبيل المثال، يمزج برنامج MixUp بين صورتين معًا، مما يساعد نماذج الرؤية الحاسوبية على فهم العلاقات بين الكائنات وتحسين قدرتها على التعميم عبر سيناريوهات مختلفة. ويأخذ CutMix هذا الأمر خطوة إلى الأمام من خلال استبدال جزء من صورة بجزء من صورة أخرى، مما يمكّن النماذج من التعلم من سياقات متعددة داخل الصورة نفسها. وفي الوقت نفسه، يعمل CutOut بشكل مختلف من خلال إزالة أجزاء عشوائية من الصورة، وتدريب نماذج الذكاء الاصطناعي البصري على التعرف على الأجسام حتى عندما تكون مخفية أو معطلة جزئياً.
يكتسب الذكاء الاصطناعي التوليدي زخماً في العديد من الصناعات والتطبيقات اليومية. من المحتمل أن تكون قد واجهتها فيما يتعلق بالصور المولدة بالذكاء الاصطناعي أو مقاطع الفيديو المزيفة أو التطبيقات التي تنشئ صوراً رمزية واقعية. ولكن بعيدًا عن الإبداع والترفيه، يلعب الذكاء الاصطناعي التوليدي دورًا حاسمًا في تدريب نماذج الذكاء الاصطناعي الرؤيوي من خلال توليد صور جديدة من الصور الموجودة.
فبدلاً من مجرد قلب الصور أو تدويرها، يمكن أن تخلق اختلافات واقعية - تغيير تعابير الوجه أو أنماط الملابس أو حتى محاكاة الظروف الجوية المختلفة. تساعد هذه الاختلافات نماذج الرؤية الحاسوبية على أن تصبح نماذج الرؤية الحاسوبية أكثر قابلية للتكيف والدقة في سيناريوهات العالم الحقيقي المتنوعة. يمكن أيضاً لنماذج الذكاء الاصطناعي التوليدي المتقدمة مثل شبكات الخصومة التوليدية (GANs) ونماذج الانتشار أن تملأ التفاصيل المفقودة أو تخلق صوراً اصطناعية عالية الجودة.
بينما تعمل زيادة البيانات على تحسين مجموعات بيانات التدريب، إلا أن هناك أيضًا بعض القيود التي يجب مراعاتها. فيما يلي بعض التحديات الرئيسية المتعلقة بزيادة بيانات الصور:
أحد التطبيقات المثيرة للاهتمام لزيادة بيانات الصور هو في السيارات ذاتية القيادة، حيث تكون القرارات التي تتخذها نماذج الرؤية الحاسوبية مثل YOLO11 في أجزاء من الثانية حاسمة. يجب أن يكون النموذج قادراً على اكتشاف الطرق والأشخاص والأشياء الأخرى بدقة.
ومع ذلك، يمكن أن تكون ظروف العالم الحقيقي التي تواجهها السيارة ذاتية القيادة غير متوقعة. يمكن للطقس السيئ وضبابية الحركة والعلامات المخفية أن تجعل حلول الرؤية بالذكاء الاصطناعي في هذا القطاع معقدة. غالباً ما لا يكفي تدريب نماذج الرؤية الحاسوبية باستخدام صور العالم الحقيقي فقط. يجب أن تكون مجموعات بيانات الصور للنماذج في السيارات ذاتية القيادة متنوعة حتى يتمكن النموذج من تعلم التعامل مع المواقف غير المتوقعة.
تعمل زيادة بيانات الصور على حل هذه المشكلة من خلال محاكاة الضباب وتعديل السطوع وتشويه الأشكال. تساعد هذه التغييرات النماذج على التعرف على الأجسام في ظروف مختلفة. ونتيجة لذلك، تصبح النماذج أكثر ذكاءً وموثوقية.
من خلال التدريب المعزز، تتكيف حلول الذكاء الاصطناعي المرئي في السيارات ذاتية القيادة بشكل أفضل وتتخذ قرارات أكثر أماناً. نتائج أكثر دقة تعني تقليل الحوادث وتحسين الملاحة.
السيارات ذاتية القيادة هي مجرد مثال واحد فقط. في الواقع، تُعد زيادة بيانات الصور أمرًا بالغ الأهمية في مجموعة واسعة من القطاعات، من التصوير الطبي إلى تحليلات البيع بالتجزئة. يمكن أن يستفيد أي تطبيق يعتمد على الرؤية الحاسوبية من زيادة بيانات الصور.
تحتاج أنظمة الذكاء الاصطناعي للرؤية إلى أن تكون قادرة على التعرف على الأشياء في ظروف مختلفة، ولكن قد يكون من الصعب جمع عدد لا نهائي من الصور الواقعية للتدريب. تعمل زيادة بيانات الصور على حل هذه المشكلة من خلال إنشاء أشكال مختلفة من الصور الموجودة، مما يساعد النماذج على التعلم بشكل أسرع وأداء أفضل في مواقف العالم الحقيقي. كما أنه يحسّن الدقة، مما يضمن قدرة نماذج الذكاء الاصطناعي للرؤية مثل YOLO11 على التعامل مع الإضاءة والزوايا والبيئات المختلفة.
بالنسبة للشركات والمطورين، توفر زيادة بيانات الصور الوقت والجهد مع جعل نماذج الرؤية الحاسوبية أكثر موثوقية. من الرعاية الصحية إلى السيارات ذاتية القيادة، تعتمد العديد من الصناعات على ذلك. ومع استمرار تطور الذكاء الاصطناعي البصري في التطور، ستظل التعزيز جزءاً أساسياً من بناء نماذج أكثر ذكاءً وقابلية للتكيف في المستقبل.
انضم إلى مجتمعنا وقم بزيارة مستودع GitHub الخاص بنا لمشاهدة الذكاء الاصطناعي أثناء العمل. استكشف خيارات الترخيص لدينا واكتشف المزيد عن الذكاء الاصطناعي في الزراعة والرؤية الحاسوبية في التصنيع على صفحات الحلول الخاصة بنا.