مسرد المصطلحات

كاشفات الأجسام ثنائية المراحل

اكتشف قوة أجهزة الكشف عن الأجسام ذات المرحلتين - حلول تركز على الدقة لاكتشاف الأجسام بدقة في مهام الرؤية الحاسوبية المعقدة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تمثّل أجهزة الكشف عن الأجسام ذات المرحلتين فئة من بنيات الكشف عن الأجسام المعروفة بدقتها العالية، خاصةً في المشاهد المعقدة. وخلافاً لنظيراتها، تقسم هذه الكواشف مهمة الكشف عن الأجسام إلى خطوتين متميزتين: أولاً، تحديد المناطق المحتملة في الصورة التي قد تحتوي على أجسام (اقتراح المنطقة)، وثانياً، تصنيف الأجسام داخل تلك المناطق المقترحة وتنقيح مواقعها باستخدام المربعات المحدودة. يسمح هذا الأسلوب المنهجي بإجراء تحليل مفصّل ولكن غالباً ما يأتي على حساب السرعة الحسابية مقارنةً بالطرق البديلة. هذه النماذج هي حجر الزاوية في تطور الرؤية الحاسوبية (CV).

كيف تعمل أجهزة الكشف على مرحلتين

ينطوي تشغيل الكاشف ثنائي المراحل على خط أنابيب متسلسل، وعادةً ما يستفيد من الشبكات العصبية العميقة (NN)، وتحديدًا الشبكات العصبية التلافيفية (CNNsلاستخراج الميزة.

  1. المرحلة 1: اقتراح المنطقة: تهدف المرحلة الأولى إلى توليد مجموعة يمكن التحكم فيها من المناطق المرشحة (مناطق الاهتمام، أو RoIs) حيث من المحتمل أن تكون الكائنات موجودة. استخدمت النماذج المبكرة مثل شبكة R-CNN أساليب خارجية مثل البحث الانتقائي، في حين أن التطورات اللاحقة، ولا سيما بنية شبكة R-CNN الأسرع، دمجت هذه الخطوة في الشبكة العصبية نفسها باستخدام شبكة اقتراح المناطق (RPN). تفحص شبكة اقتراح المناطق (RPN) بكفاءة خرائط الميزات التي تنتجها الشبكة الأساسية وتتنبأ بمواقع الكائنات المحتملة وأحجامها.
  2. المرحلة 2: التصنيف والتنقيح: يتم بعد ذلك تمرير المناطق المقترحة من المرحلة الأولى إلى المرحلة الثانية. لكل RoI، يتم استخراج الميزات من خريطة الميزات المشتركة (باستخدام تقنيات مثل RoIPooling أو RoIAlign للتعامل مع أحجام المناطق المختلفة). تُغذّي هذه الميزات رأس الكشف الذي يؤدي مهمتين: تصنيف الكائن داخل RoI (على سبيل المثال، "سيارة"، "شخص"، "خلفية") وتنقيح إحداثيات المربع المحيط لتتناسب مع الكائن بدقة أكبر.

الخصائص الرئيسية

تتميز أجهزة الكشف على مرحلتين في المقام الأول بما يلي:

  • دقة عالية: يسمح الفصل بين توليد الاقتراحات والتصنيف/التنقيح للمرحلة الثانية بتركيز مواردها على مجموعة أصغر من المناطق الواعدة، مما يؤدي غالبًا إلى دقة أعلى في تحديد الموقع والتصنيف. وهي تميل إلى الأداء الجيد على الأجسام الصغيرة وفي المشاهد المزدحمة. غالبًا ما يتم قياس الأداء باستخدام مقاييس مثل متوسط متوسط الدقة (mAP) والتقاطع على الاتحاد (IoU).
  • سرعة استنتاج أبطأ: إن معالجة الصورة على مرحلتين منفصلتين، خاصةً مع النفقات الزائدة الناتجة عن توليد العديد من مقترحات المناطق ومعالجتها بشكل فردي، يجعل هذه الكواشف أكثر كثافة من الناحية الحسابية وأبطأ بشكل عام من كاشفات الأجسام ذات المرحلة الواحدة. وهذا يمكن أن يحد من استخدامها في التطبيقات التي تتطلب استدلالاً صارمًا في الوقت الحقيقي.

مقارنة مع كاشفات المرحلة الواحدة

يكمن الفرق الرئيسي في خط الأنابيب التشغيلي. أجهزة الكشف ذات المرحلة الواحدة، مثل Ultralytics YOLO (بما في ذلك نماذج مثل YOLO11 و YOLOv8) ونموذج SSD (كاشف المربعات المتعددة اللقطة الواحدة)، يتنبأ مباشرةً بالمربعات المحدودة واحتمالات الفئة من الصورة الكاملة في تمرير أمامي واحد عبر الشبكة. يعاملون اكتشاف الأجسام كمشكلة انحدار. يمنح هذا النهج الموحد مزايا سرعة كبيرة، مما يجعلها مناسبة للتطبيقات في الوقت الفعلي. ومع ذلك، فقد واجهت تاريخيًا تحديات تضاهي دقة أجهزة الكشف على مرحلتين، خاصةً بالنسبة للأجسام الصغيرة، على الرغم من أن هذه الفجوة قد ضاقت بشكل كبير مع التطورات الحديثة. يمكنك استكشاف المقارنات بين نماذج الكشف عن الأجسام المختلفة لمزيد من التفاصيل.

المعماريات البارزة

يتضمن تطور أجهزة الكشف على مرحلتين العديد من النماذج المؤثرة:

  • R-CNN (المناطق مع ميزات CNN): العمل الرائد الذي جمع بين مقترحات المناطق وميزات شبكة CNN ولكنه كان بطيئًا بسبب معالجة كل منطقة بشكل مستقل.
  • شبكة R-CNN سريعة: سرعة محسّنة من خلال مشاركة العمليات الحسابية عبر المقترحات باستخدام RoIPooling على خريطة ميزات التلافيف المشتركة.(ورقة شبكة R-CNN السريعة)
  • شبكة R-CNN أسرع: زيادة السرعة والأناقة من خلال دمج خطوة اقتراح المنطقة في الشبكة عبر شبكة RPN، مما يؤدي إلى إنشاء نظام قابل للتدريب من النهاية إلى النهاية تقريبًا.
  • قناع R-CNN: توسيع شبكة R-CNN الموسعة الأسرع R-CNN لإجراء تجزئة المثيل عن طريق إضافة فرع للتنبؤ بأقنعة التجزئة لكل كائن تم اكتشافه.(ورقة Mask R-CNN)

التطبيقات الواقعية

إن الدقة العالية لأجهزة الكشف ذات المرحلتين تجعلها ذات قيمة في السيناريوهات التي تكون فيها الدقة أمرًا بالغ الأهمية:

  • تحليل الصور الطبية: يتطلب الكشف عن الحالات الشاذة الدقيقة مثل الأورام الصغيرة أو الآفات أو الأورام الحميدة في الفحوصات الطبية (التصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي) دقة عالية للمساعدة في التشخيص. يعد التوطين الدقيق أمرًا بالغ الأهمية لتخطيط العلاج. اطلع على المزيد عن الذكاء الاصطناعي في مجال الرعاية الصحية والأبحاث في مجلات مثل Radiology: الذكاء الاصطناعي. يمكنك استكشاف مجموعات بيانات مثل مجموعة بيانات أورام الدماغ للمهام ذات الصلة.
  • القيادة الذاتية: يُعد الاكتشاف الدقيق للمشاة وراكبي الدراجات والمركبات الأخرى وإشارات المرور وتحديد مواقعها بدقة، خاصةً الصغيرة أو المحجوبة جزئياً، أمراً بالغ الأهمية لأنظمة السلامة في السيارات ذاتية القيادة. تعتمد شركات مثل Waymo بشكل كبير على أنظمة الإدراك القوية.
  • فهم تفصيلي للمشهد: التطبيقات التي تتطلب فهماً دقيقاً لتفاعلات الكائنات أو العد الدقيق تستفيد من الدقة العالية.
  • مراقبة الجودة في التصنيع: غالبًا ما يتطلب تحديد العيوب الصغيرة أو التحقق من وضع المكونات في التجميعات المعقدة دقة عالية. تعرف على المزيد حول الذكاء الاصطناعي في التصنيع.

وعادةً ما يتضمن تدريب هذه النماذج مجموعات بيانات موسومة كبيرة، مثل مجموعة بيانات COCO، والضبط الدقيق. توفر Ultralytics موارد لتدريب النماذج وفهم مقاييس الأداء. بينما يركز Ultralytics على النماذج الفعالة ذات المرحلة الواحدة مثل Ultralytics YOLO فإن فهم النماذج الكاشفة ذات المرحلتين يوفر سياقًا قيّمًا في المجال الأوسع لاكتشاف الأجسام.

قراءة الكل