انضم إلينا بينما نلقي نظرة على تطور اكتشاف الأجسام. سنركز على كيفية تقدم نماذج YOLO (أنت تنظر مرة واحدة فقط) في السنوات الأخيرة.
الرؤية الحاسوبية هو مجال فرعي للذكاء الاصطناعي (AI) يركز على تعليم الآلات رؤية وفهم الصور ومقاطع الفيديو، على غرار كيفية إدراك البشر للعالم الحقيقي. في حين أن التعرّف على الأشياء أو تحديد الأفعال هو أمر طبيعي بالنسبة للبشر، فإن هذه المهام تتطلب تقنيات رؤية حاسوبية محددة ومتخصصة عندما يتعلق الأمر بالآلات. على سبيل المثال، تتمثل إحدى المهام الرئيسية في مجال الرؤية الحاسوبية في اكتشاف الأجسام، والتي تتضمن تحديد الأجسام داخل الصور أو مقاطع الفيديو وتحديد موقعها.
منذ ستينيات القرن العشرين، يعمل الباحثون على تحسين كيفية اكتشاف أجهزة الكمبيوتر للأشياء. تضمنت الأساليب المبكرة، مثل مطابقة القوالب، تمرير قالب محدد مسبقاً عبر الصورة للعثور على التطابق. وعلى الرغم من أن هذه الأساليب كانت مبتكرة، إلا أنها واجهت صعوبات في التعامل مع التغيرات في حجم الجسم واتجاهه وإضاءته. اليوم، لدينا نماذج متقدمة مثل Ultralytics YOLO11 التي يمكنها اكتشاف حتى الأجسام الصغيرة والمخفية جزئياً، والمعروفة باسم الأجسام المحجوبة، بدقة مذهلة.
مع استمرار تطور الرؤية الحاسوبية، من المهم إلقاء نظرة على كيفية تطور هذه التقنيات. في هذه المقالة، سنستكشف تطور اكتشاف الأجسام وسنسلط الضوء على تطور نماذجYOLO (أنت تنظر مرة واحدة فقط). لنبدأ!
قبل الغوص في اكتشاف الأجسام، دعونا نلقي نظرة على كيفية بدء الرؤية الحاسوبية. تعود أصول الرؤية الحاسوبية إلى أواخر الخمسينيات وأوائل الستينيات عندما بدأ العلماء في استكشاف كيفية معالجة الدماغ للمعلومات البصرية. في التجارب التي أجريت على القطط، اكتشف الباحثان ديفيد هابل وتورستن فيزل أن الدماغ يتفاعل مع الأنماط البسيطة مثل الحواف والخطوط. وقد شكل ذلك الأساس للفكرة الكامنة وراء استخراج السمات - وهو المفهوم القائل بأن الأنظمة البصرية تكتشف وتتعرف على السمات الأساسية في الصور، مثل الحواف، قبل الانتقال إلى أنماط أكثر تعقيداً.
وفي نفس الوقت تقريبًا، ظهرت تقنية جديدة يمكنها تحويل الصور المادية إلى صيغ رقمية، مما أثار الاهتمام بكيفية معالجة الآلات للمعلومات المرئية. في عام 1966، دفع مشروع الرؤية الصيفية التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) الأمور إلى أبعد من ذلك. وعلى الرغم من أن المشروع لم ينجح تمامًا، إلا أنه كان يهدف إلى إنشاء نظام يمكنه فصل المقدمة عن الخلفية في الصور. بالنسبة للكثيرين في مجتمع الرؤية والذكاء الاصطناعي، يمثل هذا المشروع البداية الرسمية للرؤية الحاسوبية كمجال علمي.
مع تقدم الرؤية الحاسوبية في أواخر التسعينيات وأوائل العقد الأول من القرن الحادي والعشرين، تحولت أساليب اكتشاف الأجسام من التقنيات الأساسية مثل مطابقة القوالب إلى أساليب أكثر تقدمًا. كانت إحدى الطرق الشائعة هي Haar Cascade، والتي أصبحت تُستخدم على نطاق واسع في مهام مثل اكتشاف الوجوه. تعمل هذه الطريقة من خلال مسح الصور باستخدام نافذة منزلقة، والتحقق من وجود ميزات محددة مثل الحواف أو القوام في كل قسم من الصورة، ثم دمج هذه الميزات للكشف عن الأجسام مثل الوجوه. كانت Haar Cascade أسرع بكثير من الطرق السابقة.
إلى جانب ذلك، تم أيضًا تقديم طرق مثل المدرج التدرجي للتدرجات الموجهة (HOG) وآلات دعم المتجهات (SVMs). استخدم HOG تقنية النافذة المنزلقة لتحليل كيفية تغيّر الضوء والظلال في أجزاء صغيرة من الصورة، مما يساعد على تحديد الأجسام بناءً على أشكالها. ثم قامت SVMs بتصنيف هذه الميزات لتحديد هوية الكائن. حسّنت هذه الأساليب من الدقة ولكنها لا تزال تعاني في بيئات العالم الحقيقي وكانت أبطأ مقارنةً بالتقنيات الحالية.
في عام 2010، أدى ظهور التعلم العميق والشبكات العصبية التلافيفية (CNNs) إلى تحول كبير في اكتشاف الأجسام. فقد أتاحت الشبكات العصبية التلافيفية (CNNs) لأجهزة الكمبيوتر إمكانية تعلّم السمات المهمة تلقائيًا من كميات كبيرة من البيانات، مما جعل عملية الكشف أكثر دقة.
كانت النماذج المبكرة مثل R-CNN (الشبكات العصبية التلافيفية القائمة على المنطقة) تحسناً كبيراً في الدقة، مما ساعد على تحديد الأجسام بدقة أكبر من الطرق القديمة.
ومع ذلك، كانت هذه النماذج بطيئة لأنها تعالج الصور على مراحل متعددة، مما يجعلها غير عملية للتطبيقات في الوقت الحقيقي في مجالات مثل السيارات ذاتية القيادة أو المراقبة بالفيديو.
مع التركيز على تسريع الأمور، تم تطوير نماذج أكثر كفاءة. ساعدت نماذج مثل Fast R-CNN و Faster R-CNN من خلال تحسين كيفية اختيار مناطق الاهتمام وتقليل عدد الخطوات اللازمة للكشف. على الرغم من أن هذا جعل عملية الكشف عن الأجسام أسرع، إلا أنه لم يكن سريعًا بما يكفي للعديد من التطبيقات الواقعية التي تحتاج إلى نتائج فورية. دفع الطلب المتزايد على الاكتشاف في الوقت الحقيقي إلى تطوير حلول أسرع وأكثر كفاءة يمكنها تحقيق التوازن بين السرعة والدقة.
YOLO هو نموذج للكشف عن الأجسام أعاد تعريف الرؤية الحاسوبية من خلال تمكين الكشف عن الأجسام المتعددة في الصور ومقاطع الفيديو في الوقت الحقيقي، مما يجعله فريدًا تمامًا عن طرق الكشف السابقة. بدلاً من تحليل كل كائن تم اكتشافه على حدة، تتعامل بنيةYOLO مع اكتشاف الكائنات كمهمة واحدة، حيث تتنبأ بكل من موقع وفئة الكائنات دفعة واحدة باستخدام شبكات CNN.
يعمل النموذج من خلال تقسيم الصورة إلى شبكة، بحيث يكون كل جزء مسؤولاً عن اكتشاف الأجسام في المنطقة الخاصة به. يقوم النموذج بعمل تنبؤات متعددة لكل قسم ويقوم بتصفية النتائج الأقل ثقة، مع الاحتفاظ فقط بالنتائج الدقيقة.
أدى إدخال YOLO في تطبيقات الرؤية الحاسوبية إلى جعل اكتشاف الأجسام أسرع بكثير وأكثر كفاءة من النماذج السابقة. وبسبب سرعته ودقته، سرعان ما أصبح YOLO خيارًا شائعًا لحلول الوقت الحقيقي في صناعات مثل التصنيع والرعاية الصحية والروبوتات.
نقطة أخرى مهمة يجب ملاحظتها هي أنه نظرًا لأن YOLO كان مفتوح المصدر، فقد تمكن المطورون والباحثون من تحسينه باستمرار، مما أدى إلى إصدارات أكثر تقدمًا.
YOLO تحسّنت النماذج بشكل مطرد مع مرور الوقت، معتمدةً على التطورات التي طرأت على كل إصدار. إلى جانب تحسين الأداء، جعلت هذه التحسينات النماذج أسهل استخدامًا للأشخاص ذوي المستويات المختلفة من الخبرة التقنية.
على سبيل المثال، عندما Ultralytics YOLOv5 تم تقديمه، أصبح نشر النماذج أكثر بساطة مع PyTorchمما يسمح لمجموعة أكبر من المستخدمين بالعمل مع الذكاء الاصطناعي المتقدم. لقد جمعت بين الدقة وسهولة الاستخدام، مما أتاح لعدد أكبر من الأشخاص القدرة على تنفيذ اكتشاف الكائنات دون الحاجة إلى أن يكونوا خبراء في البرمجة.
Ultralytics YOLOv8 واصل هذا التقدم بإضافة دعم لمهام مثل تجزئة النماذج وجعل النماذج أكثر مرونة. أصبح من الأسهل استخدام YOLO لكل من التطبيقات الأساسية والأكثر تعقيدًا، مما يجعله مفيدًا عبر مجموعة من السيناريوهات.
مع أحدث طراز, Ultralytics YOLO11، تم إجراء المزيد من التحسينات. من خلال تقليل عدد المعلمات مع تحسين الدقة، أصبح الآن أكثر كفاءة للمهام في الوقت الفعلي. سواءً كنت مطورًا متمرسًا أو جديدًا في مجال الذكاء الاصطناعي، فإن YOLO11 يقدم نهجًا متقدمًا لاكتشاف الكائنات يمكن الوصول إليه بسهولة.
YOLO11الذي تم إطلاقه في الحدث السنوي الهجين Ultralytics0،YOLO Vision 2024 (YV24)، يدعم مهام الرؤية الحاسوبية نفسها التي يدعمها YOLOv8 ، مثل اكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور، وتقدير الوضعية. لذلك، يمكن للمستخدمين التبديل بسهولة إلى هذا النموذج الجديد دون الحاجة إلى تعديل سير عملهم. بالإضافة إلى ذلك، فإن بنية YOLO11المطورة تجعل التنبؤات أكثر دقة. في الواقع، يحقق YOLO11m متوسط دقة أعلى على مجموعة بيانات COCO بمعلمات أقل بنسبة 22% من YOLOv8m.
YOLO11 مصممة أيضًا لتعمل بكفاءة على مجموعة من الأنظمة الأساسية، بدءًا من الهواتف الذكية والأجهزة المتطورة الأخرى وحتى الأنظمة السحابية الأكثر قوة. تضمن هذه المرونة سلاسة الأداء عبر إعدادات الأجهزة المختلفة للتطبيقات في الوقت الفعلي. وعلاوة على ذلك، فإن YOLO11 أسرع وأكثر كفاءة، مما يقلل من التكاليف الحسابية ويسرّع من أوقات الاستدلال. وسواء كنت تستخدم حزمةUltralytics Python أو حزمة Ultralytics HUB التي لا تحتوي على رموز، فمن السهل دمجها YOLO11 في سير عملك الحالي.
إن تأثير الكشف المتقدم عن الأجسام على التطبيقات في الوقت الفعلي والذكاء الاصطناعي المتطور أصبح ملموساً بالفعل في مختلف القطاعات. نظرًا لأن قطاعات مثل النفط والغاز والرعاية الصحية وتجارة التجزئة تعتمد بشكل متزايد على الذكاء الاصطناعي، يستمر الطلب على الكشف السريع والدقيق عن الأجسام في الارتفاع. YOLO11 يهدف إلى تلبية هذا الطلب من خلال تمكين الكشف عالي الأداء حتى على الأجهزة ذات القدرة الحاسوبية المحدودة.
مع نمو الذكاء الاصطناعي المتطور، من المرجح أن تصبح نماذج اكتشاف الكائنات مثل YOLO11 أكثر أهمية لاتخاذ القرارات في الوقت الحقيقي في البيئات التي تكون فيها السرعة والدقة أمرًا بالغ الأهمية. مع التحسينات المستمرة في التصميم والقدرة على التكيف، يبدو أن مستقبل اكتشاف الكائنات سيجلب المزيد من الابتكارات عبر مجموعة متنوعة من التطبيقات.
لقد قطع اكتشاف الأجسام شوطًا طويلاً، حيث تطوّر من أساليب بسيطة إلى تقنيات التعلّم العميق المتقدمة التي نراها اليوم. YOLO كانت نماذج في قلب هذا التقدم، حيث قدمت اكتشافًا أسرع وأكثر دقة في الوقت الحقيقي في مختلف الصناعات. YOLO11 يعتمد على هذا الإرث، مما يحسّن الكفاءة ويقلل من التكاليف الحسابية ويعزز الدقة، مما يجعله خيارًا موثوقًا به لمجموعة متنوعة من التطبيقات في الوقت الحقيقي. مع التطورات المستمرة في مجال الذكاء الاصطناعي والرؤية الحاسوبية، يبدو مستقبل اكتشاف الأجسام مشرقًا، مع وجود مجال لمزيد من التحسينات في السرعة والدقة والقدرة على التكيف.
هل لديك فضول حول الذكاء الاصطناعي؟ ابقَ على تواصل مع مجتمعنا لمواصلة التعلم! اطّلع على مستودع GitHub الخاص بنا لاكتشاف كيفية استخدامنا للذكاء الاصطناعي لإنشاء حلول مبتكرة في صناعات مثل التصنيع والرعاية الصحية. 🚀