شيك أخضر
تم نسخ الرابط إلى الحافظة

ما هو قناع R-CNN وكيف يعمل؟

تعلّم كيف يمكن استخدام Mask R-CNN لتجزئة الكائنات بدقة في الصور ومقاطع الفيديو لمختلف التطبيقات في مختلف القطاعات.

أصبحت الابتكارات مثل الروبوتات في المستودعات، والسيارات ذاتية القيادة التي تتحرك بأمان في الشوارع المزدحمة، والطائرات بدون طيار التي تتفقد المحاصيل، وأنظمة الذكاء الاصطناعي التي تفحص المنتجات في المصانع أكثر شيوعاً مع زيادة اعتماد الذكاء الاصطناعي. إحدى التقنيات الرئيسية التي تقود هذه الابتكارات هي الرؤية الحاسوبية، وهي فرع من الذكاء الاصطناعي يُمكِّن الآلات من فهم البيانات المرئية وتفسيرها.

على سبيل المثال، اكتشاف الأجسام هو مهمة رؤية حاسوبية تساعد في تحديد الأجسام في الصور وتحديد موقعها باستخدام المربعات المحدودة. على الرغم من أن المربعات المحدودة توفر معلومات مفيدة، إلا أنها توفر فقط تقديرًا تقريبيًا لموضع الجسم ولا يمكنها التقاط شكله أو حدوده بدقة. وهذا يجعلها أقل فعالية في التطبيقات التي تتطلب تحديداً دقيقاً.

ولحل هذه المشكلة، طوّر الباحثون نماذج تجزئة تلتقط الخطوط الدقيقة للأجسام، مما يوفر تفاصيل على مستوى البكسل لاكتشاف وتحليل أكثر دقة.

Mask R-CNN هو أحد هذه النماذج. تم تقديمه في عام 2017 من قِبل شركة فيسبوك لأبحاث الذكاء الاصطناعي (FAIR)، وهو يعتمد على نماذج سابقة مثل R-CNN وR-CNN السريع وFaster R-CNN. وباعتبارها علامة فارقة مهمة في تاريخ الرؤية الحاسوبية، فقد مهدت Mask R-CNN الطريق لنماذج أكثر تقدمًا، مثل Ultralytics YOLO11.

في هذه المقالة، سنستكشف في هذه المقالة ما هو قناع R-CNN، وكيفية عمله، وتطبيقاته، والتحسينات التي طرأت عليه بعد ذلك، وصولاً إلى YOLO11.

نظرة عامة على قناع R-CNN

Mask R-CNN، والتي تعني الشبكة العصبية التلافيفية القائمة على منطقة القناع، هي نموذج تعلّم عميق مصمم لمهام الرؤية الحاسوبية مثل اكتشاف الأجسام وتجزئة المثيل. 

يتجاوز تجزئة المثيل الاكتشاف التقليدي للكائنات من خلال عدم الاكتفاء بتحديد الكائنات في الصورة فحسب، بل أيضًا تحديد كل كائن بدقة. فهو يعيّن تسمية فريدة لكل كائن مكتشف ويلتقط شكله الدقيق على مستوى البكسل. يتيح هذا النهج التفصيلي إمكانية التمييز بوضوح بين الأجسام المتداخلة والتعامل بدقة مع الأشكال المعقدة.

تعتمد شبكة R-CNN القناع على شبكة R-CNN الأسرع، والتي تكتشف الأجسام وتسمّيها ولكنها لا تحدد أشكالها الدقيقة. تعمل شبكة R-CNN ذات القناع على تحسين ذلك من خلال تحديد وحدات البكسل الدقيقة التي تشكل كل كائن بدقة، مما يسمح بتحليل أكثر تفصيلاً ودقة للصور.

الشكل 1. مقارنة اكتشاف الكائن وتجزئة المثيل.

نظرة على بنية Mask R-CNN وكيفية عملها

يتّبع Mask R-CNN نهجًا تدريجيًا لاكتشاف الأجسام وتقسيمها بدقة. ويبدأ باستخراج الميزات الرئيسية باستخدام شبكة عصبية عميقة (نموذج متعدد الطبقات يتعلم من البيانات)، ثم يحدد مناطق الأجسام المحتملة باستخدام شبكة اقتراح المناطق (مكون يقترح مناطق الأجسام المحتملة)، وأخيراً ينقح هذه المناطق عن طريق إنشاء أقنعة تجزئة مفصلة (مخططات دقيقة للأجسام) تلتقط الشكل الدقيق لكل جسم.

بعد ذلك، سنستعرض كل خطوة لتكوين فكرة أفضل عن كيفية عمل Mask R-CNN.

الشكل 2. نظرة عامة على بنية شبكة R-CNN القناع.

البدء باستخراج الميزة

تتمثل الخطوة الأولى في بنية Mask R-CNN في تقسيم الصورة إلى أجزائها الرئيسية حتى يتمكن النموذج من فهم ما بداخلها. فكر في الأمر كما لو كنت تنظر إلى صورة وتلاحظ بطبيعة الحال تفاصيل مثل الأشكال والألوان والحواف. يقوم النموذج بشيء مشابه باستخدام شبكة عصبية عميقة تسمى "العمود الفقري" (غالباً ما تكون ResNet-50 أو ResNet-101)، والتي تعمل مثل عينيه لمسح الصورة والتقاط التفاصيل الرئيسية.

نظرًا لأن الأجسام في الصور يمكن أن تكون صغيرة جدًا أو كبيرة جدًا، يستخدم قناع R-CNN شبكة هرمية للميزات. وهذا يشبه وجود عدسات مكبرة مختلفة تسمح للنموذج برؤية التفاصيل الدقيقة والصورة الأكبر على حد سواء، مما يضمن ملاحظة الأجسام من جميع الأحجام.

وبمجرد استخراج هذه الميزات المهمة، ينتقل النموذج بعد ذلك إلى تحديد موقع الأجسام المحتملة في الصورة، مما يمهد الطريق لمزيد من التحليل.

اقتراح المناطق المحتملة في الصورة مع الأجسام

بعد معالجة الصورة بحثاً عن الملامح الرئيسية، تتولى شبكة اقتراح المناطق. ينظر هذا الجزء من النموذج إلى الصورة ويقترح المناطق التي من المحتمل أن تحتوي على أجسام.

وهي تقوم بذلك من خلال توليد عدة مواقع محتملة للكائنات تُسمى نقاط الارتكاز. ثم تقوم الشبكة بعد ذلك بتقييم هذه المرتكزات واختيار أكثرها واعدة لمزيد من التحليل. بهذه الطريقة، يركز النموذج فقط على المناطق التي من المرجح أن تكون مثيرة للاهتمام، بدلاً من التحقق من كل بقعة في الصورة.

الشكل 3. مثال على شبكة اقتراح المنطقة.

تحسين الميزات المستخرجة 

مع تحديد المناطق الرئيسية، فإن الخطوة التالية هي تنقيح التفاصيل المستخرجة من هذه المناطق. استخدمت النماذج السابقة طريقة تُسمى تجميع عائد الاستثمار (تجميع منطقة الاهتمام) لاستخلاص الميزات من كل منطقة، لكن هذه التقنية أدت في بعض الأحيان إلى اختلالات طفيفة عند تغيير حجم المناطق، مما يجعلها أقل فعالية - خاصةً بالنسبة للأجسام الأصغر أو المتداخلة.

يعمل قناع R-CNN على تحسين ذلك باستخدام تقنية يُشار إليها باسم ROI Align (محاذاة منطقة الاهتمام). بدلًا من تقريب الإحداثيات كما يفعل تجميع ROI Align، يستخدم ROI Align الاستيفاء الثنائي الخطي لتقدير قيم البكسل بدقة أكبر. الاستيفاء الثنائي الخطي الثنائي هو طريقة تحسب قيمة بكسل جديدة عن طريق حساب متوسط قيم أقرب أربعة من جيرانها، مما يخلق انتقالات أكثر سلاسة. يحافظ هذا على محاذاة الميزات بشكل صحيح مع الصورة الأصلية، مما يؤدي إلى اكتشاف الكائنات وتجزئتها بشكل أكثر دقة.

على سبيل المثال، في مباراة كرة قدم، قد يُخطئ لاعبان يقفان بالقرب من بعضهما البعض في مباراة كرة قدم، لأن المربعات المحيطة بهما متداخلة. تساعد محاذاة ROI Align في الفصل بينهما من خلال الحفاظ على أشكالهما متمايزة. 

الشكل 4. قناع R-CNN يستخدم ROI Align.

تصنيف الأجسام والتنبؤ بأقنعتها

بمجرد أن يقوم ROI Align بمعالجة الصورة، فإن الخطوة التالية هي تصنيف الكائنات وضبط مواقعها. ينظر النموذج إلى كل منطقة مستخرجة ويقرر ما هو الكائن الذي تحتوي عليه. يقوم بتعيين درجة احتمالية للفئات المختلفة ويختار أفضل تطابق.

في الوقت نفسه، يضبط المربعات المحدّدة لتناسب الأجسام بشكل أفضل. قد لا تكون المربعات الأولية موضوعة بشكل مثالي، لذا يساعد ذلك في تحسين الدقة من خلال التأكد من أن كل مربع يحيط بإحكام بالكائن المكتشف.

أخيرًا، تتخذ شبكة R-CNN القناع خطوة إضافية: فهي تُنشئ قناع تجزئة مفصّل لكل كائن بالتوازي.

قناع R-CNN وتطبيقاته في الوقت الحقيقي

عندما ظهر هذا النموذج، قوبل بالكثير من الحماس من مجتمع الذكاء الاصطناعي وسرعان ما تم استخدامه في تطبيقات مختلفة. فقدرته على اكتشاف الأشياء وتجزئتها في الوقت الفعلي جعلته يغير قواعد اللعبة في مختلف الصناعات.

على سبيل المثال، يعد تعقب الحيوانات المهددة بالانقراض في البرية مهمة صعبة. فالعديد من الأنواع تتنقل عبر الغابات الكثيفة، مما يجعل من الصعب على دعاة الحفاظ على البيئة تتبعها. وتستخدم الطرق التقليدية مصائد الكاميرات والطائرات بدون طيار وصور الأقمار الصناعية، ولكن فرز كل هذه البيانات يدوياً يستغرق وقتاً طويلاً. يمكن أن يؤدي الخطأ في تحديد الهوية والمشاهدات المفقودة إلى إبطاء جهود الحفاظ على البيئة.

من خلال التعرف على السمات الفريدة مثل خطوط النمر أو بقع الزرافة أو شكل أذني الفيل، يمكن لنموذج Mask R-CNN اكتشاف الحيوانات في الصور ومقاطع الفيديو وتجزئتها بدقة أكبر. حتى عندما تكون الحيوانات مخفية جزئيًا بالأشجار أو تقف بالقرب من بعضها البعض، يمكن للنموذج فصلها وتحديد كل منها على حدة، مما يجعل مراقبة الحياة البرية أسرع وأكثر موثوقية.

الشكل 5. الكشف عن الحيوانات وتجزئتها باستخدام شبكة R-CNN القناع.

حدود قناع R-CNN القناع

على الرغم من أهميتها التاريخية في الكشف عن الكائنات وتجزئتها، فإن Mask R-CNN القناع يأتي أيضًا مع بعض العيوب الرئيسية. فيما يلي بعض التحديات المتعلقة بـ Mask R-CNN:

  • ارتفاع الطلب الحسابي: تعتمد على وحدات معالجة الرسومات القوية، مما يجعل تشغيلها مكلفًا وبطيئًا عند معالجة كميات كبيرة من البيانات.

  • سرعة المعالجة الأبطأ: تجعله عملية المعالجة متعددة المراحل أبطأ مقارنةً بنماذج الوقت الحقيقي الأسرع مثل YOLO والتي قد لا تكون مثالية للمهام الحساسة للوقت.

  • الاعتماد على البيانات عالية الجودة: يعمل النموذج بأفضل أداء مع الصور الواضحة ذات التسميات الجيدة. يمكن أن تقلل الصور الضبابية أو ضعيفة الإضاءة من دقته بشكل كبير.
  • التنفيذ المعقد: قد يكون من الصعب إعداد البنية متعددة المراحل وتحسينها، خاصةً عند التعامل مع مجموعات البيانات الكبيرة أو الموارد المحدودة.

من Mask R-CNN إلى Ultralytics YOLO11

كان قناع R-CNN القناع رائعًا لمهام التجزئة، ولكن العديد من الصناعات كانت تتطلع إلى اعتماد الرؤية الحاسوبية مع إعطاء الأولوية للسرعة والأداء في الوقت الحقيقي. قاد هذا المطلب الباحثين إلى تطوير نماذج من مرحلة واحدة تكتشف الأجسام في مسار واحد، مما أدى إلى تحسين الكفاءة بشكل كبير.

على عكس عملية Mask R-CNN متعددة الخطوات، تركز نماذج الرؤية الحاسوبية ذات المرحلة الواحدة مثل YOLO (أنت تنظر مرة واحدة فقط) على مهام الرؤية الحاسوبية في الوقت الفعلي. بدلاً من التعامل مع الاكتشاف والتجزئة بشكل منفصل، يمكن لنماذج YOLO تحليل الصورة دفعة واحدة. وهذا ما يجعلها مثالية لتطبيقات مثل القيادة الذاتية والرعاية الصحية والتصنيع والروبوتات، حيث يكون اتخاذ القرارات السريعة أمرًا بالغ الأهمية.

على وجه الخصوص، يأخذ YOLO11 هذا الأمر خطوة إلى الأمام من خلال كونه سريعًا ودقيقًا في آنٍ واحد. فهو يستخدم معلمات أقل بنسبة 22% أقل من YOLOv8m ولكنه لا يزال يحقق متوسط دقة أعلى في مجموعة بيانات COCO، مما يعني أنه يكتشف الأجسام بدقة أكبر. تجعله سرعة معالجته المحسّنة خيارًا جيدًا للتطبيقات في الوقت الفعلي حيث يكون كل جزء من الثانية مهمًا.

الشكل 6. أداء YOLO11بالمقارنة مع النماذج الأخرى.

الوجبات الرئيسية

بالرجوع إلى تاريخ الرؤية الحاسوبية، يُعتبر قناع R-CNN طفرة كبيرة في مجال اكتشاف الأجسام وتجزئتها. فهو يقدم نتائج دقيقة للغاية حتى في الإعدادات المعقدة، وذلك بفضل عمليته التفصيلية متعددة الخطوات. 

ومع ذلك، فإن هذه العملية نفسها تجعلها أبطأ مقارنةً بنماذج الوقت الحقيقي مثل YOLO. مع تنامي الحاجة إلى السرعة والكفاءة، تستخدم العديد من التطبيقات الآن نماذج ذات مرحلة واحدة مثل Ultralytics YOLO11 والتي توفر اكتشافًا سريعًا ودقيقًا للأجسام. في حين أن قناع R-CNN مهم فيما يتعلق بفهم تطور رؤية الكمبيوتر، فإن الاتجاه نحو حلول الوقت الحقيقي يسلط الضوء على الطلب المتزايد على حلول رؤية الكمبيوتر الأسرع والأكثر كفاءة.

انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع الرؤية الحاسوبية الخاصة بك؟ اطلع على خيارات الترخيص لدينا. اكتشف الذكاء الاصطناعي في الزراعة والذكاء الاصطناعي للرؤية في مجال الرعاية الصحية من خلال زيارة صفحات الحلول الخاصة بنا! 

شعار الفيسبوكشعار تويترشعار LinkedInرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي