مسرد المصطلحات

كاشفات الأجسام ذات المرحلة الواحدة

اكتشف سرعة وفعالية أجهزة الكشف عن الأجسام ذات المرحلة الواحدة مثل YOLO، وهي مثالية للتطبيقات في الوقت الحقيقي مثل الروبوتات والمراقبة.

كاشفات الأجسام ذات المرحلة الواحدة هي فئة من نماذج التعلّم العميق المصممة للسرعة والكفاءة في الرؤية الحاسوبية. تقوم هذه النماذج بتحديد موقع الكائن وتصنيفه في مسار واحد وموحد للشبكة العصبية. وهذا يتناقض مع نظيراتها الأكثر تعقيدًا، كاشفات الأجسام ذات المرحلتين، والتي تقسم المهمة إلى خطوتين مختلفتين. من خلال التعامل مع الكشف عن الأجسام كمشكلة انحدار مباشرة، تتنبأ النماذج ذات المرحلة الواحدة بالمربعات المحدودة واحتمالات الفئة مباشرةً من ميزات الصورة، مما يجعلها سريعة للغاية ومناسبة للتطبيقات التي تتطلب الاستدلال في الوقت الفعلي.

كيف تعمل أجهزة الكشف ذات المرحلة الواحدة

يقوم كاشف من مرحلة واحدة بمعالجة صورة كاملة في آن واحد من خلال شبكة عصبية تلافيفية واحدة (CNN). تم تصميم بنية الشبكة لأداء عدة مهام في وقت واحد. أولاً، يقوم العمود الفقري للشبكة باستخراج الميزات، مما يؤدي إلى إنشاء تمثيلات غنية لصورة الإدخال بمقاييس مختلفة. ثم يتم تغذية هذه الميزات في رأس كشف متخصص.

هذا الرأس مسؤول عن التنبؤ بمجموعة من المربعات المحددة، ودرجة ثقة لكل مربع تشير إلى وجود كائن ما، واحتمالية انتماء كل كائن إلى فئة معينة. تحدث هذه العملية بأكملها في مسار أمامي واحد، وهو مفتاح سرعتها العالية. ثم يتم استخدام تقنيات مثل الكبح غير الأقصى (NMS) لتصفية الاكتشافات الزائدة والمتداخلة لإنتاج الناتج النهائي. يتم تدريب النماذج باستخدام دالة خسارة متخصصة تجمع بين خسارة التوطين (مدى دقة المربع المحدد) وخسارة التصنيف (مدى دقة التنبؤ بالفئة).

مقارنة مع كاشفات الأجسام ذات المرحلتين

يكمن الفرق الأساسي في المنهجية. فالكاشفات ذات المرحلة الواحدة مصممة للسرعة والبساطة، بينما تعطي الكاشفات ذات المرحلتين الأولوية للدقة، على الرغم من أن هذا التمييز أصبح أقل وضوحًا مع الطرز الأحدث.

  • كاشفات المرحلة الواحدة: تقوم هذه النماذج، مثل عائلة YOLO (أنت تنظر مرة واحدة فقط) ، بإجراء الكشف في خطوة واحدة. وهي أسرع بشكل عام وتتميز ببنية أبسط، مما يجعلها مثالية للأجهزة المتطورة وتطبيقات الوقت الحقيقي. وقد أدى تطوير الكاشفات الخالية من المرساة إلى زيادة تحسين أدائها وبساطتها.
  • أجهزة كشف الأجسام ذات المرحلتين: تولد نماذج مثل سلسلة R-CNN ومتغيراتها الأسرع أولاً مجموعة متفرقة من مقترحات المناطق التي قد توجد فيها الأجسام. في المرحلة الثانية، تقوم شبكة منفصلة بتصنيف هذه المقترحات وتنقيح إحداثيات المربع المحيط. عادةً ما تنتج هذه العملية المكونة من خطوتين دقة أعلى، خاصةً بالنسبة للأجسام الصغيرة، ولكن على حساب سرعة استنتاج أبطأ بكثير. تُعد شبكة R-CNN القناع مثالاً معروفًا يوسع هذا النهج ليشمل تجزئة المثيل.

البنى والنماذج الرئيسية

تم تطوير العديد من البنى ذات المرحلة الواحدة المؤثرة، ولكل منها مساهمات فريدة من نوعها:

  • YOLO (أنت تنظر مرة واحدة فقط): تم تقديم YOLO في ورقة بحثية رائدة في عام 2015، وقد صاغ YOLO اكتشاف الأجسام كمشكلة انحدار واحدة. وقد عملت الإصدارات اللاحقة، بما في ذلك YOLOv8 والإصدار YOLOV8 والإصدار YOLO11 المتطور من برنامج Ultralytics YOLO11، على تحسين التوازن بين السرعة والدقة باستمرار.
  • كاشف اللقطة الواحدة متعدد الصناديق (SSD): كانت بنية SSD نموذجًا رائدًا آخر من مرحلة واحدة يستخدم خرائط ميزات متعددة المقاييس للكشف عن الأجسام ذات الأحجام المختلفة، مما يحسن الدقة مقارنةً بـ YOLO الأصلي.
  • RetinaNet: قدّم هذا النموذج دالة الخسارة البؤرية، وهي دالة خسارة جديدة مصممة لمعالجة الاختلال الشديد في التوازن الطبقي الذي يواجهه أثناء تدريب أجهزة الكشف الكثيفة، مما سمح له بتجاوز دقة العديد من أجهزة الكشف ذات المرحلتين في ذلك الوقت.
  • EfficientDet: عائلة من النماذج التي طورتها Google Research والتي تركز على قابلية التوسع والكفاءة باستخدام طريقة القياس المركب وشبكة ميزات BiFPPN جديدة. يمكنك معرفة كيفية مقارنتها بنماذج أخرى مثل YOLO11 مقابل EfficientDet.

التطبيقات الواقعية

إن سرعة وكفاءة أجهزة الكشف ذات المرحلة الواحدة جعلتها لا غنى عنها في العديد من التطبيقات التي تعتمد على الذكاء الاصطناعي:

  1. المركبات ذاتية القيادة: في مجال الذكاء الاصطناعي للسيارات ذاتية القيادة، تُعد أجهزة الكشف ذات المرحلة الواحدة ضرورية لإدراك البيئة في الوقت الفعلي. ويمكنها تحديد وتتبع المشاة وراكبي الدراجات والمركبات الأخرى وإشارات المرور على الفور، مما يمكّن نظام الملاحة في السيارة من اتخاذ قرارات حاسمة في جزء من الثانية. تستخدم شركات مثل تسلا مبادئ مماثلة لأنظمة الطيار الآلي الخاصة بها.
  2. الأمن والمراقبة الذكية: تعمل النماذج ذات المرحلة الواحدة على تشغيل أنظمة الأمن الحديثة من خلال تحليل موجزات الفيديو للكشف عن التهديدات مثل الدخول غير المصرح به أو النشاط المشبوه. على سبيل المثال، يمكن تدريب النظام على عدّ الأشخاص في طابور لإدارة طابور الانتظار أو تحديد الأمتعة المتروكة في المطار، وكل ذلك في الوقت الفعلي.

المزايا والقيود

تتمثل الميزة الأساسية لأجهزة الكشف ذات المرحلة الواحدة في سرعتها المذهلة، والتي تتيح اكتشاف الأجسام في الوقت الفعلي على مجموعة متنوعة من الأجهزة، بما في ذلك أجهزة الذكاء الاصطناعي منخفضة الطاقة مثل NVIDIA Jetson أو Raspberry Pi. كما أن بنيتها البسيطة والمتكاملة تجعلها أسهل في التدريب والنشر باستخدام أطر عمل مثل PyTorch أو TensorFlow.

تاريخيًا، كان القيد الرئيسي هو انخفاض الدقة مقارنةً بأجهزة الكشف ذات المرحلتين، خاصةً عند التعامل مع الأجسام الصغيرة جدًا أو الأجسام المحجوبة بشدة. ومع ذلك، فإن التطورات الأخيرة في هندسة النماذج وتقنيات التدريب، كما رأينا في نماذج مثل YOLO11، قد سدت هذه الفجوة في الأداء بشكل كبير، مما يوفر مزيجًا قويًا من السرعة والدقة العالية لمجموعة واسعة من مهام الرؤية الحاسوبية. تعمل المنصات مثل Ultralytics HUB على تبسيط عملية تدريب النماذج المخصصة لتلبية احتياجات محددة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة