افهم كيف تدعم Ultralytics YOLO11 اكتشاف الأجسام الخالية من الارتكاز والفوائد التي تجلبها بنية هذا النموذج لمختلف التطبيقات.
إذا ألقينا نظرة على تاريخ نماذج الذكاء الاصطناعي للرؤية، نجد أن مفهوم اكتشاف الأجسام - وهي مهمة أساسية في الرؤية الحاسوبية تتضمن تحديد الأجسام داخل صورة أو فيديو وتحديد موقعها - كان موجوداً منذ ستينيات القرن الماضي. ومع ذلك، فإن السبب الرئيسي لأهميته في الابتكارات المتطورة اليوم هو أن تقنيات اكتشاف الأجسام وبنى النماذج قد تطورت وتحسنت بسرعة منذ ذلك الحين.
في مقال سابق، ناقشنا في مقال سابق تطور اكتشاف الأجسام والطريق الذي أدى إلى نماذج Ultralytics YOLO . واليوم، سنركز على استكشاف معلم أكثر تحديدًا في هذه الرحلة: القفزة من أجهزة الكشف القائمة على المرساة إلى أجهزة الكشف الخالية من المرساة.
تعتمد أجهزة الكشف المستندة إلى مرساة على مربعات محددة مسبقًا، تُسمى "المراسي"، للتنبؤ بمكان وجود الأجسام في الصورة. على النقيض من ذلك، تتخطى أجهزة الكشف الخالية من المراسي هذه المربعات المحددة مسبقًا وتتنبأ بدلاً من ذلك بمواقع الأجسام مباشرةً.
على الرغم من أن هذا التحول قد يبدو تغييرًا بسيطًا ومنطقيًا، إلا أنه أدى في الواقع إلى تحسينات كبيرة في دقة اكتشاف الأجسام وكفاءتها. في هذه المقالة، سوف نفهم كيف أعادت أجهزة الكشف الخالية من الارتكاز تشكيل الرؤية الحاسوبية من خلال تطورات مثل Ultralytics YOLO11.
تستخدم أجهزة الكشف المستندة إلى المرساة مربعات محددة مسبقًا، تُعرف باسم نقاط الارتكاز، للمساعدة في تحديد موقع الأجسام في الصورة. فكّر في هذه المراسي على أنها شبكة من المربعات ذات الأحجام والأشكال المختلفة الموضوعة فوق الصورة. يقوم النموذج بعد ذلك بتعديل هذه المربعات لتناسب الأجسام التي يكتشفها. على سبيل المثال، إذا تعرّف النموذج على سيارة، فسيقوم بتعديل مربع الارتكاز لمطابقة موضع السيارة وحجمها بدقة أكبر.
ترتبط كل نقطة تثبيت بجسم محتمل في الصورة، وأثناء التدريب، يتعلم النموذج كيفية تعديل مربعات التثبيت لتتناسب بشكل أفضل مع موقع الجسم وحجمه ونسبة العرض إلى الارتفاع. يسمح ذلك للنموذج باكتشاف الأجسام بمقاييس واتجاهات مختلفة. ومع ذلك، يمكن أن يستغرق اختيار المجموعة الصحيحة من مربعات التثبيت وقتاً طويلاً، ويمكن أن تكون عملية ضبطها بدقة عرضة للأخطاء.
على الرغم من أن أجهزة الكشف القائمة على المرساة، مثل YOLOv4، تعمل بشكل جيد في العديد من التطبيقات، إلا أن لها بعض العيوب. على سبيل المثال، لا تتماشى مربعات الارتساء دائمًا بشكل جيد مع الأجسام ذات الأشكال أو الأحجام المختلفة، مما يجعل من الصعب على النموذج اكتشاف الأجسام الصغيرة أو غير المنتظمة الشكل. يمكن أن تستغرق عملية اختيار وضبط أحجام مربعات الارتكاز أيضًا وقتًا طويلاً وتتطلب الكثير من الجهد اليدوي. بصرف النظر عن ذلك، غالبًا ما تواجه النماذج المستندة إلى المرساة صعوبة في اكتشاف الأجسام المحجوبة أو المتداخلة، حيث قد لا تتكيف المربعات المحددة مسبقًا بشكل جيد مع هذه السيناريوهات الأكثر تعقيدًا.
بدأت أجهزة الكشف الخالية من المرساة تكتسب اهتمامًا في عام 2018 مع نماذج مثل CornerNet و CenterNet، التي اتبعت نهجًا جديدًا لاكتشاف الأجسام من خلال إلغاء الحاجة إلى مربعات الارتكاز المحددة مسبقًا. على عكس النماذج التقليدية التي تعتمد على مربعات الارتكاز ذات الأحجام والأشكال المختلفة للتنبؤ بمكان وجود الأجسام، تتنبأ النماذج الخالية من المرتكزات بمواقع الأجسام مباشرةً. فهي تركز على النقاط أو السمات الرئيسية للجسم، مثل المركز، مما يبسّط عملية الكشف ويجعلها أسرع وأكثر دقة.
إليك كيفية عمل النماذج الخالية من المراسي بشكل عام:
نظرًا لأن النماذج الخالية من المرتكزات لا تعتمد على مربعات الارتكاز، فإن تصميمها أبسط. وهذا يعني أنها أكثر كفاءة من الناحية الحسابية. ونظراً لأنها لا تحتاج إلى معالجة العديد من مربعات الارتكاز، فيمكنها اكتشاف الأجسام بسرعة أكبر - وهي ميزة مهمة في تطبيقات الوقت الحقيقي مثل القيادة الذاتية والمراقبة بالفيديو.
كما أن النماذج الخالية من المرساة أفضل بكثير في التعامل مع الأجسام الصغيرة أو غير المنتظمة أو المسدودة. نظرًا لأنها تركز على اكتشاف النقاط الرئيسية بدلاً من محاولة ملاءمة مربعات الارتكاز، فهي أكثر مرونة. يمكّنها ذلك من اكتشاف الأجسام بدقة في البيئات المزدحمة أو المعقدة حيث قد تفشل النماذج القائمة على المرساة.
صُممت النماذج YOLO في الأصل من أجل السرعة والكفاءة، وقد تحولت النماذج تدريجيًا من الأساليب القائمة على الارتكاز إلى الكشف الخالي من الارتكاز، مما جعل نماذج مثل YOLO11 أسرع وأكثر مرونة وملاءمة لمجموعة واسعة من التطبيقات في الوقت الحقيقي.
فيما يلي نظرة سريعة على كيفية تطور التصميم الخالي من المرساة عبر إصدارات YOLO المختلفة:
من الأمثلة الرائعة على فوائد الاكتشاف الخالي من الارتكاز باستخدام YOLO11 في السيارات ذاتية القيادة. في السيارات ذاتية القيادة، يعد اكتشاف المشاة والمركبات الأخرى والعوائق بسرعة ودقة أمراً بالغ الأهمية للسلامة. YOLO11 يعمل النهج الخالي من المرساة على تبسيط عملية الاكتشاف من خلال التنبؤ مباشرةً بالنقاط الرئيسية للأجسام، مثل مركز المشاة أو حدود مركبة أخرى، بدلاً من الاعتماد على مربعات الارتكاز المحددة مسبقاً.
YOLO11 لا يحتاج إلى ضبط أو ملاءمة شبكة من نقاط الارتكاز لكل كائن، وهو ما قد يكون مكلفًا وبطيئًا من الناحية الحسابية. بدلاً من ذلك، يركز على الميزات الرئيسية، مما يجعله أسرع وأكثر كفاءة. على سبيل المثال، عندما يخطو أحد المشاة في مسار السيارة، يمكن لـ YOLO11 تحديد موقعه بسرعة من خلال تحديد النقاط الرئيسية، حتى لو كان الشخص مخفيًا جزئيًا أو يتحرك. وتسمح القدرة على التكيف مع الأشكال والأحجام المختلفة بدون مربعات تثبيت YOLO11 باكتشاف الأجسام بشكل أكثر موثوقية وبسرعات أعلى، وهو أمر حيوي لاتخاذ القرارات في الوقت الفعلي في أنظمة القيادة الذاتية.
تشمل التطبيقات الأخرى التي تبرز فيها قدرات YOLO11الخالية من المراسي حقًا ما يلي:
في حين أن النماذج الخالية من المراسي مثل YOLO11 تقدم العديد من المزايا، إلا أنها تأتي مع بعض القيود. يتمثل أحد الاعتبارات العملية الرئيسية التي يجب مراعاتها في أنه حتى النماذج الخالية من المراسي يمكن أن تواجه صعوبات في حالات الانسداد أو الأجسام المتداخلة بشكل كبير. والأساس المنطقي وراء ذلك هو أن الرؤية الحاسوبية تهدف إلى محاكاة الرؤية البشرية، وكما نعاني أحيانًا في تحديد الأجسام المسدودة، يمكن أن تواجه نماذج الذكاء الاصطناعي تحديات مماثلة.
هناك عامل آخر مثير للاهتمام يتعلق بمعالجة تنبؤات النموذج. على الرغم من أن هندسة النماذج الخالية من الارتكاز أبسط من النماذج القائمة على الارتكاز، إلا أن التنقيح الإضافي يصبح ضرورياً في بعض الحالات. على سبيل المثال، قد تكون هناك حاجة إلى تقنيات ما بعد المعالجة مثل الإخماد غير الأقصى (NMS) لتنظيف التنبؤات المتداخلة أو تحسين الدقة في المشاهد المزدحمة.
لقد كان التحول من الكشف القائم على الارتكاز إلى الكشف الخالي من الارتكاز تقدمًا كبيرًا في الكشف عن الأجسام. فمع النماذج الخالية من المرتكزات مثل YOLO11 ، يتم تبسيط العملية، مما يؤدي إلى تحسينات في كل من الدقة والسرعة.
من خلال YOLO11 ، رأينا كيف يتفوق الكشف عن الأجسام الخالية من الارتكاز في تطبيقات الوقت الحقيقي مثل السيارات ذاتية القيادة والمراقبة بالفيديو والتصوير الطبي، حيث يكون الكشف السريع والدقيق أمرًا بالغ الأهمية. يُمكِّن هذا النهج YOLO11 من التكيف بسهولة أكبر مع أحجام الأجسام المختلفة والمشاهد المعقدة، مما يوفر أداءً أفضل في بيئات متنوعة.
مع استمرار تطور الرؤية الحاسوبية، سيصبح اكتشاف الأجسام أسرع وأكثر مرونة وفعالية.
استكشف مستودع GitHub الخاص بنا وانضم إلى مجتمعنا التفاعلي لتبقى على اطلاع دائم بكل ما يتعلق بالذكاء الاصطناعي. اطّلع على كيفية تأثير الذكاء الاصطناعي المرئي على قطاعات مثل التصنيع والزراعة.