مسرد المصطلحات

كاشفات الأجسام ثنائية المراحل

اكتشف قوة أجهزة الكشف عن الأجسام ذات المرحلتين - حلول تركز على الدقة لاكتشاف الأجسام بدقة في مهام الرؤية الحاسوبية المعقدة.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تمثّل أجهزة الكشف عن الأجسام ذات المرحلتين فئة من بنيات الكشف عن الأجسام في مجال الرؤية الحاسوبية (CV) التي تعطي الأولوية للدقة من خلال تقسيم عملية الكشف إلى مرحلتين مختلفتين. صُممت هذه الكواشف لتحديد مناطق الاهتمام (RoIs) أولاً داخل الصورة حيث يمكن أن تكون الأجسام موجودة، ثم في المرحلة الثانية، تصنيف الأجسام داخل هذه المناطق المقترحة وتنقيح مواقعها (المربعات المحيطة). يسمح هذا النهج المنهجي بإجراء تحليل أكثر تفصيلاً لكل كائن محتمل، مما يؤدي في كثير من الأحيان إلى دقة أعلى في الكشف، خاصة في السيناريوهات المعقدة أو عند اكتشاف الأجسام الصغيرة.

كيف تعمل أجهزة الكشف على مرحلتين

ينطوي تشغيل أجهزة الكشف على مرحلتين على عملية متسلسلة، بالاستفادة من تقنيات التعلّم العميق، وخاصةً الشبكات العصبية التلافيفية (CNNs).

  1. المرحلة 1: اقتراح المنطقة: عادةً ما تستخدم المرحلة الأولى شبكة اقتراح المناطق (RPN)، وهو مفهوم شاع في نموذج شبكة R-CNN الأسرع. تقوم شبكة اقتراح المناطق بمسح ميزات الصورة (المستخرجة بواسطة شبكة سي إن إن الأساسية مثل شبكة ريس نت) وتقترح مجموعة من المناطق المرشحة التي من المحتمل أن تحتوي على كائنات. هذه المقترحات هي في الأساس عبارة عن مربعات حدية خشنة حول الأجسام المحتملة.
  2. المرحلة 2: التصنيف والتنقيح: يتم بعد ذلك تمرير المناطق المقترحة (RoIs) إلى المرحلة الثانية. يتم استخراج الميزات لكل منطقة (غالباً باستخدام تقنيات مثل RoIPool أو RoIAlign)، وتقوم شبكة عصبية (NN) بمهمتين: تصنيف الكائن داخل المنطقة (على سبيل المثال، "سيارة"، "شخص"، "خلفية") وتنقيح إحداثيات المربع المحيط لتتناسب مع الكائن بدقة أكبر. تشمل الأمثلة البارزة عائلة R-CNN(ما هو R-CNN؟، وR-CNN السريع، وFaster R-CNN) وMask R-CNN، الذي يوسع هذا النهج لأداء تجزئة المثيل.

المزايا والعيوب

تقدم أجهزة الكشف على مرحلتين مزايا متميزة ولكنها تأتي أيضًا مع مفاضلات:

المزايا:

  • دقة عالية: يسمح الفصل بين توليد المقترحات والتصنيف/التنقيح بمعالجة أكثر تركيزًا، مما يؤدي عمومًا إلى دقة أعلى، لا سيما إذا تم قياسها بمقاييس مثل متوسط متوسط الدقة (mAP).
  • توطين أفضل: غالباً ما تؤدي مرحلة التنقيح إلى تنبؤات أكثر دقة للمربع المحدد.
  • فعالة للأجسام الصغيرة: يمكن أن يكون أداؤها أفضل من أجهزة الكشف ذات المرحلة الواحدة في تحديد الأجسام الصغيرة في الصورة بسبب المرحلة الثانية المركزة.

العيوب:

  • سرعة أبطأ: تتطلب العملية المتسلسلة ذات المرحلتين بطبيعتها وقتًا أطول في الحوسبة، مما يؤدي إلى زمن استجابة أقل في الاستدلال مقارنةً بالطرق ذات المرحلة الواحدة. وهذا يجعلها أقل ملاءمة للتطبيقات التي تتطلب الاستدلال في الوقت الحقيقي.
  • التعقيد: البنية بشكل عام أكثر تعقيدًا في التنفيذ والتدريب.
  • تكلفة حسابية أعلى: تتطلب عادةً المزيد من الموارد الحاسوبية (مثل وحدات معالجة الرسومات) لكل من التدريب والاستدلال.

مقارنة مع كاشفات المرحلة الواحدة

يكمن الفرق الأساسي في البنية والنهج. فكاشفات الأجسام ذات المرحلة الواحدة، مثل Ultralytics YOLO (على سبيل المثال YOLOv8, YOLO11) و SSD، تقوم بتحديد موقع الكائن وتصنيفه في وقت واحد في مسار واحد عبر الشبكة. وهذا يجعلها أسرع بكثير. غالبًا ما ينطوي الاختيار بين أجهزة الكشف على مرحلة واحدة وأجهزة الكشف على مرحلتين على مفاضلة: إعطاء الأولوية للسرعة (مرحلة واحدة) أو الدقة القصوى (مرحلتين). في حين أن أجهزة الكشف ذات المرحلة الواحدة قد أغلقت فجوة الدقة بشكل كبير، غالبًا ما تحافظ أجهزة الكشف ذات المرحلتين على ميزة في السيناريوهات التي تتطلب أعلى دقة.

التطبيقات الواقعية

إن الدقة العالية لأجهزة الكشف ذات المرحلتين تجعلها ذات قيمة في التطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية:

  • تحليل الصور الطبية: الكشف عن الحالات الشاذة الدقيقة مثل الأورام الصغيرة أو الآفات في التصوير المقطعي المحوسب أو التصوير بالرنين المغناطيسي، حيث تكون الدقة العالية ضرورية للتشخيص. وقد تم تكييف نماذج مثل Mask R-CNN في مثل هذه المهام في الذكاء الاصطناعي في مجال الرعاية الصحية (انظر مثال: Mask R-CNN في التصوير الطبي).
  • القيادة الذاتية: تمكين أنظمة الإدراك التفصيلي في السيارات ذاتية القيادة من اكتشاف وتصنيف الأجسام المختلفة بدقة مثل المشاة والمركبات وإشارات المرور، حتى في البيئات المزدحمة أو الصعبة، مما يساهم في السلامة العامة في مجال الذكاء الاصطناعي في السيارات.
  • صور الأقمار الصناعية عالية الدقة: تحليل صور الأقمار الصناعية المفصّلة لتحديد الأجسام بدقة، مثل تتبع أنواع معينة من المركبات أو تغييرات البنية التحتية في تحليل صور الأقمار الصناعية.
  • مراقبة الجودة في التصنيع: فحص المنتجات بحثًا عن العيوب الطفيفة التي تتطلب دقة توطين عالية في الذكاء الاصطناعي في التصنيع. توفر أطر عمل مثل Detectron2 من Meta AI تطبيقات للنماذج الشائعة ذات المرحلتين.
قراءة الكل