اكتشف سرعة وفعالية أجهزة الكشف عن الأجسام ذات المرحلة الواحدة مثل YOLO ، وهي مثالية للتطبيقات في الوقت الحقيقي مثل الروبوتات والمراقبة.
في مجال الرؤية الحاسوبية، لا سيما في مجال اكتشاف الأجسام، غالبًا ما تكون السرعة والكفاءة أمرًا حاسمًا مثل الدقة. كاشفات الكائنات ذات المرحلة الواحدة هي فئة من نماذج التعلّم العميق المصممة مع وضع هذه الأولويات في الاعتبار، حيث تقدم نهجًا مبسطًا لتحديد وتحديد مواقع الكائنات داخل الصور أو مقاطع الفيديو. على عكس نظيراتها ذات المرحلتين، تقوم أجهزة الكشف ذات المرحلة الواحدة بتحديد موقع الكائن (تحديد مكان الكائن) وتصنيفه (تحديد ماهية الكائن) في تمريرة أمامية واحدة للشبكة العصبية. هذا التصميم يجعلها أسرع بكثير ومناسبة للغاية لتطبيقات الاستدلال في الوقت الحقيقي.
تتميز أجهزة الكشف عن الأجسام أحادية المرحلة بتصميمها المتكامل، الذي يتجنب اتخاذ خطوة منفصلة ومكثفة حسابيًا لاقتراح مناطق الاهتمام (المناطق التي من المحتمل أن تحتوي على أجسام). بدلاً من ذلك، فإنها تتعامل مع اكتشاف الأجسام كمشكلة انحدار. يقوم النموذج بمعالجة الصورة المدخلة بالكامل مرة واحدة، وعادةً ما يستخدم شبكة أساسية (غالباً ما تكون شبكة عصبية تلافيفية أو شبكة سي إن إن) لاستخراج الملامح. ثم يتم تغذية هذه الميزات مباشرةً في رأس الكشف الذي يتنبأ بإحداثيات المربعات المحدودة واحتمالات الفئة ودرجات الثقة في وقت واحد عبر شبكة الصورة أو مواقع خريطة الميزات. تؤكد هذه البنية أحادية المرور على السرعة، مما يجعلها مثالية للتطبيقات التي تكون فيها المعالجة السريعة ضرورية. تشمل الأمثلة الشائعة ما يلي Ultralytics YOLO المعروفة بموازنتها بين السرعة والدقة (مثل YOLO11)، و SSD (كاشف اللقطة الواحدة متعدد المربعات) الذي طورته Google Research. كما أن العديد من أجهزة الكشف الحديثة ذات المرحلة الواحدة خالية من الارتكاز، مما يزيد من تبسيط خط الأنابيب مقارنةً بالطرق القديمة القائمة على الارتكاز.
يكمن الفرق الأساسي بين أجهزة الكشف عن الأجسام ذات المرحلة الواحدة وأجهزة الكشف عن الأجسام ذات المرحلتين في خط أنابيبها التشغيلية. فالكاشفات ذات المرحلتين، مثل شبكة سي إن إن ( R-CNN ) المؤثرة (شبكة سي إن إن إن القائمة على المنطقة) وخلفائها مثل شبكة سي إن إن الأسرع، تقوم أولاً بتوليد العديد من مقترحات المناطق باستخدام طرق مثل البحث الانتقائي أو شبكة مقترحات المناطق (RPN). في مرحلة ثانية مميزة، يتم تصنيف هذه المقترحات وتصنيفها، ويتم تنقيح المربعات المحددة لها. تُحقق هذه العملية المكونة من خطوتين دقة أعلى بشكل عام، خاصةً للكشف عن الأجسام الصغيرة أو المتداخلة، ولكن ذلك يأتي على حساب زيادة كبيرة في وقت الحساب وسرعة استدلال أقل.
في المقابل، تدمج أجهزة الكشف ذات المرحلة الواحدة هذه الخطوات، حيث تقوم بإجراء التعريب والتصنيف في وقت واحد عبر الصورة بأكملها دفعة واحدة. ينتج عن هذا النهج الموحد مكاسب كبيرة في السرعة. تاريخيًا، كانت ميزة السرعة هذه تنطوي أحيانًا على مقايضة، مما قد يؤدي إلى دقة أقل قليلاً مقارنةً بالطرق الحديثة ذات المرحلتين، خاصةً فيما يتعلق بدقة التوطين. ومع ذلك، فقد مكّنت التطورات في تصميم البنية ووظائف الخسارة واستراتيجيات التدريب أجهزة الكشف الحديثة ذات المرحلة الواحدة مثل YOLO11 من سد هذه الفجوة في الأداء بشكل كبير، مما يوفر مقارنات مقنعة عبر معايير مختلفة. يتم تقييم الأداء عادةً باستخدام مقاييس مثل متوسط الدقة المتوسطة (mAP) والتقاطع على الاتحاد (IoU).
إن سرعة وكفاءة أجهزة الكشف عن الأجسام ذات المرحلة الواحدة تجعلها لا تقدر بثمن في العديد من سيناريوهات العالم الحقيقي التي تتطلب سرعة اتخاذ القرار والمعالجة:
يتضمن تطوير كاشفات الكائنات ذات المرحلة الواحدة ونشرها استخدام أدوات ومنصات مختلفة. أطر التعلم العميق مثل PyTorch و TensorFlow المكتبات الأساسية. توفر مكتبات الرؤية الحاسوبية مثل OpenCV وظائف معالجة الصور الأساسية. توفر Ultralytics أحدث ما توصلت إليه Ultralytics YOLO ومنصة Ultralytics HUB، التي تبسّط تدريب النماذج المخصصة على مجموعات بيانات مثل COCO أو بياناتك الخاصة، وإدارة التجارب، ونشر النماذج بكفاءة. يتطلب التدريب الفعال للنماذج في كثير من الأحيان ضبطًا دقيقًا للمُعرِّف الفائق واستراتيجيات مثل زيادة البيانات لتحسين المتانة والتعميم. يمكن تصدير النماذج إلى تنسيقات مثل ONNX للنشر عبر مختلف منصات الأجهزة، بما في ذلك الأجهزة المتطورة.