تعرّف على شبكة الشبكة الشبكية اللاسلكية RCNN وتأثيرها على اكتشاف الأجسام. سنغطي مكوناتها الرئيسية وتطبيقاتها ودورها في تطوير تقنيات مثل شبكة الشبكة الشبكية السريعة RCNN و YOLO.
اكتشاف الأج سام هو مهمة رؤية حاسوبية يمكنها التعرف على الأجسام في الصور أو مقاطع الفيديو وتحديد مواقعها لتطبيقات مثل القيادة الذاتية والمراقبة والتصوير الطبي. اعتمدت الطرق السابقة للكشف عن الأجسام، مثل كاشف فيولا-جونز ومخطط التدرجات الموجهة (HOG) مع آلات دعم المتجهات (SVM)، على ميزات مصنوعة يدويًا ونوافذ منزلقة. غالبًا ما واجهت هذه الأساليب صعوبة في اكتشاف الأجسام بدقة في المشاهد المعقدة ذات الأجسام المتعددة ذات الأشكال والأحجام المختلفة.
لقد غيّرت الشبكات العصبية التلافيفية القائمة على المنطقة (R-CNN) طريقة تعاملنا مع اكتشاف الأجسام. إنها علامة فارقة مهمة في تاريخ الرؤية الحاسوبية. لفهم كيفية ظهور نماذج مثل YOLOv8 نحتاج أولاً إلى فهم نماذج مثل R-CNN.
ابتكر روس جيرشيك وفريقه بنية نموذج R-CNN، حيث تقوم بنية نموذج R-CNN بإنشاء مقترحات المناطق، وتستخرج الميزات باستخدام شبكة عصبية تلافيفية مدربة مسبقًا (CNN)، وتصنف الكائنات، وتصقل المربعات المحدودة. على الرغم من أن ذلك قد يبدو شاقاً، إلا أنه بنهاية هذه المقالة، سيكون لديك فهم واضح لكيفية عمل الشبكة العصبية التلافيفية (R-CNN) وسبب تأثيرها الكبير. دعونا نلقي نظرة!
تتضمن عملية الكشف عن الأجسام في نموذج R-CNN ثلاث خطوات رئيسية: توليد مقترحات المناطق، واستخراج الخصائص، وتصنيف الأجسام مع تنقيح المربعات المحيطة بها. لنستعرض كل خطوة من هذه الخطوات.
في الخطوة الأولى، يقوم نموذج R-CNN بمسح الصورة لإنشاء العديد من مقترحات المناطق. مقترحات المنطقة هي مناطق محتملة قد تحتوي على كائنات. تُستخدم طرق مثل البحث الانتقائي للنظر إلى جوانب مختلفة من الصورة، مثل اللون والملمس والشكل، وتقسيمها إلى أجزاء مختلفة. يبدأ البحث الانتقائي بتقسيم الصورة إلى أجزاء أصغر، ثم دمج الأجزاء المتشابهة لتكوين مناطق أكبر من الاهتمام. تستمر هذه العملية حتى يتم إنشاء حوالي 2000 مقترح منطقة.
تساعد مقترحات المناطق هذه في تحديد جميع البقع المحتملة التي قد يوجد فيها كائن ما. في الخطوات التالية، يمكن للنموذج معالجة المناطق الأكثر صلة بكفاءة من خلال التركيز على هذه المناطق المحددة بدلاً من الصورة بأكملها. يوازن استخدام مقترحات المناطق بين الدقة والكفاءة الحسابية.
الخطوة التالية في عملية اكتشاف الأجسام في نموذج R-CNN هي استخراج الميزات من مقترحات المنطقة. يتم تغيير حجم كل اقتراح منطقة إلى حجم متناسق تتوقعه شبكة CNN (على سبيل المثال، 224 × 224 بكسل). يساعد تغيير الحجم شبكة CNN على معالجة كل مقترح بكفاءة. قبل الالتواء، يتم توسيع حجم كل اقتراح منطقة قليلاً ليشمل 16 بكسل من السياق الإضافي حول المنطقة لتوفير المزيد من المعلومات المحيطة لاستخراج الميزات بشكل أفضل.
وبمجرد تغيير حجمها، يتم تغذية مقترحات المناطق هذه في شبكة CNN مثل AlexNet، والتي عادةً ما يتم تدريبها مسبقًا على مجموعة بيانات كبيرة مثل ImageNet. تقوم شبكة CNN بمعالجة كل منطقة لاستخراج متجهات السمات عالية الأبعاد التي تلتقط تفاصيل مهمة مثل الحواف والأنسجة والأنماط. تقوم متجهات السمات هذه بتكثيف المعلومات الأساسية من المناطق. وتقوم بتحويل بيانات الصورة الأولية إلى تنسيق يمكن للنموذج استخدامه لإجراء مزيد من التحليل. يعتمد التصنيف الدقيق للأشياء وتحديد مواقعها في المراحل التالية على هذا التحويل الحاسم للمعلومات المرئية إلى بيانات ذات معنى.
الخطوة الثالثة هي تصنيف الكائنات داخل هذه المناطق. وهذا يعني تحديد فئة أو صنف كل كائن موجود ضمن المقترحات. يتم بعد ذلك تمرير متجهات السمات المستخرجة من خلال مصنف التعلّم الآلي.
في حالة شبكة R-CNN، تُستخدم آلات دعم المتجهات (SVMs) بشكل شائع لهذا الغرض. يتم تدريب كل آلة SVM على التعرّف على فئة كائن معيّن من خلال تحليل متجهات السمات وتحديد ما إذا كانت منطقة معينة تحتوي على مثيل لتلك الفئة. بشكل أساسي، لكل فئة من فئات الكائنات، يوجد مصنف مخصص للتحقق من كل اقتراح منطقة لهذا الكائن المحدد.
أثناء التدريب، يتم إعطاء المصنفات بيانات مصنفة مع عينات إيجابية وسلبية:
تتعلم المصنفات التمييز بين هذه العينات. يعمل انحدار المربع المحدد على تحسين موضع وحجم الأجسام المكتشفة من خلال تعديل المربعات المحددة المقترحة في البداية لتتناسب بشكل أفضل مع حدود الجسم الفعلية. يمكن لنموذج R-CNN تحديد الأجسام وتحديد مواقعها بدقة من خلال الجمع بين التصنيف وانحدار المربعات المحدودة.
بعد خطوات التصنيف وانحدار الصندوق المحيطي، غالبًا ما يُنشئ النموذج عدة مربعات متداخلة لنفس الكائن. يُطبَّق الكبت غير الأقصى (NMS) لتحسين هذه الاكتشافات، مع الاحتفاظ بالمربعات الأكثر دقة. يتخلص النموذج من المربعات الزائدة والمتداخلة من خلال تطبيق NMS ويحتفظ فقط بأكثر الاكتشافات ثقة.
تعمل NMS من خلال تقييم درجات الثقة (التي تشير إلى مدى احتمالية وجود الجسم المكتشف بالفعل) لجميع المربعات المحدودة وحذف تلك التي تتداخل بشكل كبير مع المربعات ذات الدرجات الأعلى.
فيما يلي تفصيل للخطوات في NMS:
لتجميع كل ذلك معًا، يكتشف نموذج R-CNN الأجسام عن طريق توليد مقترحات المناطق، واستخراج الميزات باستخدام شبكة CNN، وتصنيف الأجسام وتنقيح مواقعها باستخدام انحدار الصندوق المحيطي، واستخدام القمع غير الأقصى (NMS) مع الاحتفاظ فقط بأكثر الاكتشافات دقة.
تُعد شبكة R-CNN نموذجًا بارزًا في تاريخ اكتشاف الأجسام لأنها قدمت نهجًا جديدًا أدى إلى تحسين الدقة والأداء بشكل كبير. قبل R-CNN، كانت نماذج الكشف عن الأجسام قبل R-CNN تكافح لتحقيق التوازن بين السرعة والدقة. تسمح طريقة R-CNN في توليد مقترحات المناطق واستخدام الشبكات الشبكية ذات الشبكات الشبكية المتكاملة لاستخراج السمات بتحديد موقع الأجسام داخل الصور وتحديدها بدقة.
مهدت شبكة R-CNN الطريق لنماذج مثل شبكة R-CNN السريعة وشبكة R-CNN الأسرع وشبكة R-CNN الأسرع وشبكة R-CNN القناعية، والتي عززت الكفاءة والدقة. من خلال الجمع بين التعلّم العميق والتحليل القائم على المناطق، وضعت شبكة R-CNN معيارًا جديدًا في هذا المجال وفتحت إمكانيات لتطبيقات مختلفة في العالم الحقيقي.
هناك حالة استخدام مثيرة للاهتمام لشبكة R-CNN في التصوير الطبي. فقد استُخدمت نماذج شبكة R-CNN للكشف عن أنواع مختلفة من الأورام وتصنيفها، مثل أورام الدماغ، في الفحوصات الطبية مثل التصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب. يحسّن استخدام نموذج R-CNN في التصوير الطبي من دقة التشخيص ويساعد أخصائيي الأشعة على تحديد الأورام الخبيثة في مرحلة مبكرة. يمكن لقدرة R-CNN على اكتشاف حتى الأورام الصغيرة والمراحل المبكرة أن تُحدث فرقاً كبيراً في علاج أمراض مثل السرطان وتشخيصها.
يمكن تطبيق نموذج R-CNN على مهام التصوير الطبي الأخرى بالإضافة إلى الكشف عن الأورام. على سبيل المثال، يمكنه تحديد الكسور، والكشف عن أمراض شبكية العين في فحوصات العين، وتحليل صور الرئة للكشف عن حالات مثل الالتهاب الرئوي وفيروس كورونا المستجد (كوفيد-19). بغض النظر عن المشكلة الطبية، يمكن أن يؤدي الاكتشاف المبكر إلى نتائج أفضل للمرضى. من خلال تطبيق دقة شبكة R-CNN في تحديد الحالات الشاذة وتوطينها، يمكن لمقدمي الرعاية الصحية تحسين موثوقية وسرعة التشخيص الطبي. ومن خلال تبسيط عملية التشخيص، يمكن للمرضى الاستفادة من خطط العلاج الدقيقة في الوقت المناسب، وذلك من خلال الكشف عن الأشياء التي تسهل عملية التشخيص.
على الرغم من أن شبكة R-CNN مثيرة للإعجاب، إلا أن لها بعض العيوب، مثل التعقيد الحسابي العالي وأوقات الاستدلال البطيئة. هذه العيوب تجعل نموذج R-CNN غير مناسب للتطبيقات في الوقت الحقيقي. يمكن أن يؤدي فصل مقترحات المناطق والتصنيفات إلى خطوات منفصلة إلى أداء أقل كفاءة.
على مر السنين، ظهرت العديد من نماذج اكتشاف الأجسام التي عالجت هذه المخاوف. تجمع شبكة R-CNN السريعة بين مقترحات المنطقة واستخراج ميزات CNN في خطوة واحدة، مما يسرّع العملية. تقدم شبكة R-CNN الأسرع شبكة R-CNN الأسرع شبكة مقترحات المنطقة (RPN) لتبسيط توليد المقترحات، بينما تضيف شبكة R-CNN القناع تجزئة على مستوى البكسل لاكتشافات أكثر تفصيلاً.
في نفس الوقت تقريبًا مع Faster R-CNN، بدأت سلسلة YOLO (أنت تنظر مرة واحدة فقط) في تطوير الكشف عن الأجسام في الوقت الحقيقي. YOLO تتنبأ النماذج بالمربعات المحدودة واحتمالات الفئة في تمريرة واحدة عبر الشبكة. على سبيل المثال Ultralytics YOLOv8 يوفر دقة وسرعة محسّنة مع ميزات متقدمة للعديد من مهام الرؤية الحاسوبية.
غيّرت شبكة RCNN اللعبة في مجال الرؤية الحاسوبية، حيث أظهرت كيف يمكن للتعلّم العميق أن يغيّر من طريقة اكتشاف الأجسام. وقد ألهم نجاحها العديد من الأفكار الجديدة في هذا المجال. على الرغم من ظهور نماذج أحدث مثل Faster R-CNN و YOLO لإصلاح عيوب شبكة RCNN، إلا أن مساهمتها تعد علامة فارقة كبيرة من المهم تذكرها.
مع استمرار الأبحاث، سنرى نماذج أفضل وأسرع للكشف عن الأجسام. لن تؤدي هذه التطورات إلى تحسين كيفية فهم الآلات للعالم فحسب، بل ستؤدي أيضًا إلى التقدم في العديد من الصناعات. يبدو مستقبل اكتشاف الأجسام مثيراً!
هل تريد مواصلة استكشاف المزيد عن الذكاء الاصطناعي؟ كن جزءاً منمجتمع Ultralytics ! استكشف مستودع GitHub الخاص بنا للاطلاع على أحدث ابتكاراتنا في مجال الذكاء الاصطناعي. اطّلع على حلول الذكاء الاصطناعي الخاصة بنا في مختلف القطاعات مثل الزراعة والتصنيع. انضم إلينا للتعلم والتقدم!