اكتشف سرعة وفعالية أجهزة الكشف عن الأجسام ذات المرحلة الواحدة مثل YOLO، وهي مثالية للتطبيقات في الوقت الحقيقي مثل الروبوتات والمراقبة.
كاشفات الأجسام ذات المرحلة الواحدة هي فئة من نماذج التعلّم العميق المصممة للسرعة والكفاءة في الرؤية الحاسوبية. تقوم هذه النماذج بتحديد موقع الكائن وتصنيفه في مسار واحد وموحد للشبكة العصبية. وهذا يتناقض مع نظيراتها الأكثر تعقيدًا، كاشفات الأجسام ذات المرحلتين، والتي تقسم المهمة إلى خطوتين مختلفتين. من خلال التعامل مع الكشف عن الأجسام كمشكلة انحدار مباشرة، تتنبأ النماذج ذات المرحلة الواحدة بالمربعات المحدودة واحتمالات الفئة مباشرةً من ميزات الصورة، مما يجعلها سريعة للغاية ومناسبة للتطبيقات التي تتطلب الاستدلال في الوقت الفعلي.
يقوم كاشف من مرحلة واحدة بمعالجة صورة كاملة في آن واحد من خلال شبكة عصبية تلافيفية واحدة (CNN). تم تصميم بنية الشبكة لأداء عدة مهام في وقت واحد. أولاً، يقوم العمود الفقري للشبكة باستخراج الميزات، مما يؤدي إلى إنشاء تمثيلات غنية لصورة الإدخال بمقاييس مختلفة. ثم يتم تغذية هذه الميزات في رأس كشف متخصص.
هذا الرأس مسؤول عن التنبؤ بمجموعة من المربعات المحددة، ودرجة ثقة لكل مربع تشير إلى وجود كائن ما، واحتمالية انتماء كل كائن إلى فئة معينة. تحدث هذه العملية بأكملها في مسار أمامي واحد، وهو مفتاح سرعتها العالية. ثم يتم استخدام تقنيات مثل الكبح غير الأقصى (NMS) لتصفية الاكتشافات الزائدة والمتداخلة لإنتاج الناتج النهائي. يتم تدريب النماذج باستخدام دالة خسارة متخصصة تجمع بين خسارة التوطين (مدى دقة المربع المحدد) وخسارة التصنيف (مدى دقة التنبؤ بالفئة).
يكمن الفرق الأساسي في المنهجية. فالكاشفات ذات المرحلة الواحدة مصممة للسرعة والبساطة، بينما تعطي الكاشفات ذات المرحلتين الأولوية للدقة، على الرغم من أن هذا التمييز أصبح أقل وضوحًا مع الطرز الأحدث.
تم تطوير العديد من البنى ذات المرحلة الواحدة المؤثرة، ولكل منها مساهمات فريدة من نوعها:
إن سرعة وكفاءة أجهزة الكشف ذات المرحلة الواحدة جعلتها لا غنى عنها في العديد من التطبيقات التي تعتمد على الذكاء الاصطناعي:
تتمثل الميزة الأساسية لأجهزة الكشف ذات المرحلة الواحدة في سرعتها المذهلة، والتي تتيح اكتشاف الأجسام في الوقت الفعلي على مجموعة متنوعة من الأجهزة، بما في ذلك أجهزة الذكاء الاصطناعي منخفضة الطاقة مثل NVIDIA Jetson أو Raspberry Pi. كما أن بنيتها البسيطة والمتكاملة تجعلها أسهل في التدريب والنشر باستخدام أطر عمل مثل PyTorch أو TensorFlow.
تاريخيًا، كان القيد الرئيسي هو انخفاض الدقة مقارنةً بأجهزة الكشف ذات المرحلتين، خاصةً عند التعامل مع الأجسام الصغيرة جدًا أو الأجسام المحجوبة بشدة. ومع ذلك، فإن التطورات الأخيرة في هندسة النماذج وتقنيات التدريب، كما رأينا في نماذج مثل YOLO11، قد سدت هذه الفجوة في الأداء بشكل كبير، مما يوفر مزيجًا قويًا من السرعة والدقة العالية لمجموعة واسعة من مهام الرؤية الحاسوبية. تعمل المنصات مثل Ultralytics HUB على تبسيط عملية تدريب النماذج المخصصة لتلبية احتياجات محددة.