اكتشف YOLO12، أحدث نموذج للرؤية الحاسوبية! تعرّف على كيفية تعزيز بنيته التي تركز على الانتباه وتقنية FlashAttention لمهام اكتشاف الأجسام في مختلف الصناعات
الرؤية الحاسوبية هي فرع من الذكاء الاصطناعي (AI) يساعد الآلات على فهم الصور ومقاطع الفيديو. وهو مجال يتطور بوتيرة مذهلة لأن باحثي ومطوري الذكاء الاصطناعي يتخطون الحدود باستمرار. يهدف مجتمع الذكاء الاصطناعي دائماً إلى جعل النماذج أسرع وأذكى وأكثر كفاءة. أحد أحدث الإنجازات هو YOLO12، وهو أحدث إضافة إلى سلسلة نماذج YOLO (أنت تنظر مرة واحدة فقط)، والذي تم إصداره في 18 فبراير 2025.
تم تطوير YOLO12 من قبل باحثين من جامعة بوفالو وجامعة ولاية نيويورك وجامعة الأكاديمية الصينية للعلوم. في نهج جديد وفريد من نوعه، يقدم YOLO12 آليات الانتباه، مما يسمح للنموذج بالتركيز على الأجزاء الأكثر أهمية في الصورة بدلاً من معالجة كل شيء بالتساوي.
كما أنه يتميز أيضًا بتقنية FlashAttention، وهي تقنية تسرّع المعالجة مع استخدام ذاكرة أقل، وآلية انتباه المنطقة المصممة لمحاكاة الطريقة التي يركز بها البشر بشكل طبيعي على الأشياء المركزية.
هذه التحسينات تجعل YOLO12n أكثر دقة بنسبة 2.1% من YOLOv10n و YOLO12m +1.0% أكثر دقة من YOLO11m. ومع ذلك، يأتي ذلك مصحوبًا بمقايضة - YOLO12n أبطأ بنسبة 9% من YOLOv10n، و YOLO12m أبطأ بنسبة 3% من YOLO11m.
في هذه المقالة، سنستكشف ما الذي يجعل YOLO12 مختلفًا، وكيف يمكن مقارنته بالإصدارات السابقة، وأين يمكن تطبيقه.
سلسلة نماذجYOLO عبارة عن مجموعة من نماذج الرؤية الحاسوبية المصممة للكشف عن الأجسام في الوقت الحقيقي، مما يعني أنها تستطيع تحديد الأجسام في الصور ومقاطع الفيديو وتحديد موقعها بسرعة. بمرور الوقت، تحسّن كل إصدار من حيث السرعة والدقة والكفاءة.
على سبيل المثال Ultralytics YOLOv5الذي تم إصداره في عام 2020، وأصبح مستخدمًا على نطاق واسع لأنه كان سريعًا وسهل التخصيص والنشر. لاحقًا Ultralytics YOLOv8 تحسين هذا الأمر من خلال تقديم دعم إضافي لمهام الرؤية الحاسوبية مثل تجزئة المثيل وتتبع الكائنات.
في الآونة الأخيرة Ultralytics YOLO11 على تحسين المعالجة في الوقت الحقيقي مع الحفاظ على التوازن بين السرعة والدقة. على سبيل المثال، احتوى YOLO11m على معلمات أقل بنسبة 22% من YOLOv8m ومع ذلك حقق أداءً أفضل في الكشف على مجموعة بيانات COCO، وهو معيار يستخدم على نطاق واسع لتقييم نماذج الكشف عن الأجسام.
بناءً على هذه التطورات، يقدم YOLO12 تحولاً في كيفية معالجة المعلومات المرئية. فبدلاً من التعامل مع جميع أجزاء الصورة على قدم المساواة، فإنه يعطي الأولوية للمناطق الأكثر صلة، مما يحسن دقة الكشف. ببساطة، يعتمد YOLO12 على التحسينات السابقة بينما يهدف إلى أن يكون أكثر دقة.
يقدم YOLO12 العديد من التحسينات التي تعزز مهام الرؤية الحاسوبية مع الحفاظ على سرعات المعالجة في الوقت الحقيقي. فيما يلي نظرة عامة على ميزات YOLO12 الرئيسية:
لفهم كيفية عمل هذه الميزات في الحياة الواقعية، فكر في مركز تسوق. يمكن أن يساعدك YOLO12 في تتبع المتسوقين، وتحديد ديكورات المتجر مثل أصص النباتات أو اللافتات الترويجية، واكتشاف العناصر التي تم وضعها في غير مكانها أو المتروكة.
تساعده بنيته التي تركز على الانتباه في التركيز على أهم التفاصيل، بينما يضمن FlashAttention معالجة كل شيء بسرعة دون تحميل النظام فوق طاقته. وهذا يجعل من السهل على مشغلي مراكز التسوق تحسين الأمن وتنظيم تخطيطات المتاجر وتحسين تجربة التسوق بشكل عام.
ومع ذلك، يأتي YOLO12 أيضًا مع بعض القيود التي يجب مراعاتها:
يأتي YOLO12 في إصدارات متعددة، كل منها مُحسَّن لتلبية الاحتياجات المختلفة. تعطي الإصدارات الأصغر (النانو والصغيرة) الأولوية للسرعة والكفاءة، مما يجعلها مثالية للأجهزة المحمولة والحوسبة المتطورة. أما الإصدارات المتوسطة والكبيرة فتحقق التوازن بين السرعة والدقة، بينما صُمم YOLO12x (كبير جدًا) للتطبيقات عالية الدقة، مثل الأتمتة الصناعية والتصوير الطبي وأنظمة المراقبة المتقدمة.
مع هذه الاختلافات، يقدم YOLO12 مستويات مختلفة من الأداء اعتمادًا على حجم النموذج. تُظهر الاختبارات المعيارية أن بعض متغيرات YOLO12 تتفوق على YOLOv10 و YOLO11 في الدقة، حيث تحقق متوسط دقة أعلى في المتوسط (mAP).
ومع ذلك، فإن بعض النماذج، مثل YOLO12m و YOLO12l و YOLO12x، تعالج الصور بشكل أبطأ من YOLO11 مما يُظهر مفاضلة بين دقة الكشف والسرعة. على الرغم من ذلك، يظل YOLO12 فعّالاً، حيث يتطلب معلمات أقل من العديد من النماذج الأخرى، على الرغم من أنه لا يزال يستخدم أكثر من YOLO11. وهذا يجعله خيارًا رائعًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة الأولية.
برنامج YOLO12 مدعوم من حزمةUltralytics Python وهو سهل الاستخدام، مما يجعله في متناول كل من المبتدئين والمحترفين. من خلال بضعة أسطر من التعليمات البرمجية، يمكن للمستخدمين تحميل نماذج مُدرّبة مسبقًا، وتشغيل مهام رؤية حاسوبية متنوعة على الصور ومقاطع الفيديو، وكذلك تدريب YOLO12 على مجموعات بيانات مخصصة. تعمل حزمة Ultralytics Python على تبسيط العملية، مما يلغي الحاجة إلى خطوات الإعداد المعقدة.
على سبيل المثال، فيما يلي الخطوات التي يمكنك اتباعها لاستخدام YOLO12 لاكتشاف الأجسام:
هذه الخطوات تجعل من YOLO12 سهل الاستخدام في مجموعة متنوعة من التطبيقات، بدءًا من المراقبة وتتبع البيع بالتجزئة إلى التصوير الطبي والمركبات ذاتية القيادة.
يمكن استخدام YOLO12 في مجموعة متنوعة من التطبيقات الواقعية بفضل دعمه لاكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB).
ومع ذلك، كما ناقشنا سابقًا، تعطي نماذج YOLO12 الأولوية للدقة على السرعة، مما يعني أنها تستغرق وقتًا أطول قليلاً لمعالجة الصور مقارنةً بالإصدارات السابقة. هذه المفاضلة تجعل YOLO12 مثاليًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة في الوقت الفعلي، مثل:
قبل تشغيل YOLO12، من المهم التأكد من أن نظامك يفي بالمتطلبات اللازمة.
من الناحية الفنية، يمكن تشغيل YOLO12 على أي GPU معالجة رسومات مخصصة (وحدة معالجة الرسومات). بشكل افتراضي، لا يتطلب FlashAttention، لذا يمكن أن يعمل على معظم أنظمة GPU بدونه. ومع ذلك، فإن تمكين FlashAttention يمكن أن يكون مفيدًا بشكل خاص عند العمل مع مجموعات البيانات الكبيرة أو الصور عالية الدقة، حيث يساعد على منع التباطؤ وتقليل استخدام الذاكرة وتحسين كفاءة المعالجة.
لاستخدام FlashAttention، ستحتاج إلىGPU NVIDIA من إحدى هذه السلاسل: Turing (T4، Quadro RTX)، أو Ampere (سلسلة RTX 30، A30، A40، A100)، أو Ada Lovelace (سلسلة RTX 40)، أو Hopper (H100، H200).
مع وضع سهولة الاستخدام وإمكانية الوصول في الاعتبار، لا تدعم حزمة Ultralytics Python حتى الآن استدلال FlashAttention، حيث يمكن أن يكون تثبيتها معقدًا للغاية من الناحية التقنية. لمعرفة المزيد حول بدء استخدام YOLO12 وتحسين أدائه، راجع وثائق Ultralytics الرسمية.
مع تقدم الرؤية الحاسوبية، أصبحت النماذج أكثر دقة وكفاءة. يعمل YOLO12 على تحسين مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور باستخدام المعالجة التي تركز على الانتباه و FlashAttention، مما يعزز الدقة مع تحسين استخدام الذاكرة.
وفي الوقت نفسه، أصبحت الرؤية الحاسوبية متاحة أكثر من أي وقت مضى. إن YOLO12 سهل الاستخدام من خلال حزمة Ultralytics Python ومع تركيزه على الدقة أكثر من السرعة، فهو مناسب تمامًا للتصوير الطبي وعمليات الفحص الصناعي والروبوتات - وهي تطبيقات تكون الدقة فيها أساسية.
هل لديك فضول حول الذكاء الاصطناعي؟ تفضل بزيارة مستودع GitHub الخاص بنا وتفاعل مع مجتمعنا. استكشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة والرؤية الحاسوبية في الزراعة على صفحات الحلول الخاصة بنا. اطّلع على خيارات الترخيص لدينا واجعل مشاريعك في مجال الذكاء الاصطناعي في Vision AI تنبض بالحياة. 🚀