شيك أخضر
تم نسخ الرابط إلى الحافظة

شرح YOLO12: تطبيقات العالم الحقيقي وحالات الاستخدام

اكتشف YOLO12، أحدث نموذج للرؤية الحاسوبية! تعرّف على كيفية تعزيز بنيته التي تركز على الانتباه وتقنية FlashAttention لمهام اكتشاف الأجسام في مختلف الصناعات

الرؤية الحاسوبية هي فرع من الذكاء الاصطناعي (AI) يساعد الآلات على فهم الصور ومقاطع الفيديو. وهو مجال يتطور بوتيرة مذهلة لأن باحثي ومطوري الذكاء الاصطناعي يتخطون الحدود باستمرار. يهدف مجتمع الذكاء الاصطناعي دائماً إلى جعل النماذج أسرع وأذكى وأكثر كفاءة. أحد أحدث الإنجازات هو YOLO12، وهو أحدث إضافة إلى سلسلة نماذج YOLO (أنت تنظر مرة واحدة فقط)، والذي تم إصداره في 18 فبراير 2025.

تم تطوير YOLO12 من قبل باحثين من جامعة بوفالو وجامعة ولاية نيويورك وجامعة الأكاديمية الصينية للعلوم. في نهج جديد وفريد من نوعه، يقدم YOLO12 آليات الانتباه، مما يسمح للنموذج بالتركيز على الأجزاء الأكثر أهمية في الصورة بدلاً من معالجة كل شيء بالتساوي. 

كما أنه يتميز أيضًا بتقنية FlashAttention، وهي تقنية تسرّع المعالجة مع استخدام ذاكرة أقل، وآلية انتباه المنطقة المصممة لمحاكاة الطريقة التي يركز بها البشر بشكل طبيعي على الأشياء المركزية.

هذه التحسينات تجعل YOLO12n أكثر دقة بنسبة 2.1% من YOLOv10n و YOLO12m +1.0% أكثر دقة من YOLO11m. ومع ذلك، يأتي ذلك مصحوبًا بمقايضة - YOLO12n أبطأ بنسبة 9% من YOLOv10n، و YOLO12m أبطأ بنسبة 3% من YOLO11m.

الشكل 1. مثال على استخدام YOLO12 للكشف عن الأجسام.

في هذه المقالة، سنستكشف ما الذي يجعل YOLO12 مختلفًا، وكيف يمكن مقارنته بالإصدارات السابقة، وأين يمكن تطبيقه.

الطريق إلى إصدار YOLO12

سلسلة نماذجYOLO عبارة عن مجموعة من نماذج الرؤية الحاسوبية المصممة للكشف عن الأجسام في الوقت الحقيقي، مما يعني أنها تستطيع تحديد الأجسام في الصور ومقاطع الفيديو وتحديد موقعها بسرعة. بمرور الوقت، تحسّن كل إصدار من حيث السرعة والدقة والكفاءة.

على سبيل المثال Ultralytics YOLOv5الذي تم إصداره في عام 2020، وأصبح مستخدمًا على نطاق واسع لأنه كان سريعًا وسهل التخصيص والنشر. لاحقًا Ultralytics YOLOv8 تحسين هذا الأمر من خلال تقديم دعم إضافي لمهام الرؤية الحاسوبية مثل تجزئة المثيل وتتبع الكائنات. 

في الآونة الأخيرة Ultralytics YOLO11 على تحسين المعالجة في الوقت الحقيقي مع الحفاظ على التوازن بين السرعة والدقة. على سبيل المثال، احتوى YOLO11m على معلمات أقل بنسبة 22% من YOLOv8m ومع ذلك حقق أداءً أفضل في الكشف على مجموعة بيانات COCO، وهو معيار يستخدم على نطاق واسع لتقييم نماذج الكشف عن الأجسام.

بناءً على هذه التطورات، يقدم YOLO12 تحولاً في كيفية معالجة المعلومات المرئية. فبدلاً من التعامل مع جميع أجزاء الصورة على قدم المساواة، فإنه يعطي الأولوية للمناطق الأكثر صلة، مما يحسن دقة الكشف. ببساطة، يعتمد YOLO12 على التحسينات السابقة بينما يهدف إلى أن يكون أكثر دقة.

الميزات الرئيسية لـ YOLO12

يقدم YOLO12 العديد من التحسينات التي تعزز مهام الرؤية الحاسوبية مع الحفاظ على سرعات المعالجة في الوقت الحقيقي. فيما يلي نظرة عامة على ميزات YOLO12 الرئيسية:

  • بنية تركز على الانتباه: بدلاً من معالجة كل جزء من الصورة بالتساوي، يركز YOLO12 على المناطق الأكثر أهمية. وهذا يحسّن الدقة ويقلل من المعالجة غير الضرورية، مما يجعل الاكتشاف أكثر وضوحًا وفعالية، حتى في الصور المزدحمة.
  • FlashAttention: يعمل YOLO12 على تسريع تحليل الصور مع استخدام ذاكرة أقل. وبفضل FlashAttention (خوارزمية موفرة للذاكرة)، تعمل على تحسين معالجة البيانات، مما يقلل من إجهاد الأجهزة ويجعل المهام في الوقت الفعلي أكثر سلاسة وموثوقية.
  • شبكات تجميع الطبقات الفعالة المتبقية (R-ELAN): ينظّم YOLO12 طبقاته بكفاءة أكبر باستخدام شبكة تجميع الطبقات المتبقية ذات الكفاءة العالية (R-ELAN)، مما يحسّن من كيفية معالجة النموذج والتعلم من البيانات. وهذا يجعل التدريب أكثر ثباتًا، والتعرّف على الكائنات أكثر وضوحًا، ومتطلبات الحوسبة أقل، لذا فهو يعمل بكفاءة في بيئات مختلفة.

لفهم كيفية عمل هذه الميزات في الحياة الواقعية، فكر في مركز تسوق. يمكن أن يساعدك YOLO12 في تتبع المتسوقين، وتحديد ديكورات المتجر مثل أصص النباتات أو اللافتات الترويجية، واكتشاف العناصر التي تم وضعها في غير مكانها أو المتروكة. 

تساعده بنيته التي تركز على الانتباه في التركيز على أهم التفاصيل، بينما يضمن FlashAttention معالجة كل شيء بسرعة دون تحميل النظام فوق طاقته. وهذا يجعل من السهل على مشغلي مراكز التسوق تحسين الأمن وتنظيم تخطيطات المتاجر وتحسين تجربة التسوق بشكل عام.

الشكل 2. اكتشاف الأجسام في مركز تسوق باستخدام YOLO12.

ومع ذلك، يأتي YOLO12 أيضًا مع بعض القيود التي يجب مراعاتها:

  • أوقات تدريب أبطأ: نظرًا لبنيته، يتطلب YOLO12 وقت تدريب أطول مقارنةً بـ YOLO11.
  • تحديات التصدير: قد يواجه بعض المستخدمين صعوبات عند تصدير نماذج YOLO12، خاصة عند دمجها في بيئات نشر محددة.

فهم معايير الأداء الخاصة بـ YOLO12

يأتي YOLO12 في إصدارات متعددة، كل منها مُحسَّن لتلبية الاحتياجات المختلفة. تعطي الإصدارات الأصغر (النانو والصغيرة) الأولوية للسرعة والكفاءة، مما يجعلها مثالية للأجهزة المحمولة والحوسبة المتطورة. أما الإصدارات المتوسطة والكبيرة فتحقق التوازن بين السرعة والدقة، بينما صُمم YOLO12x (كبير جدًا) للتطبيقات عالية الدقة، مثل الأتمتة الصناعية والتصوير الطبي وأنظمة المراقبة المتقدمة.

مع هذه الاختلافات، يقدم YOLO12 مستويات مختلفة من الأداء اعتمادًا على حجم النموذج. تُظهر الاختبارات المعيارية أن بعض متغيرات YOLO12 تتفوق على YOLOv10 و YOLO11 في الدقة، حيث تحقق متوسط دقة أعلى في المتوسط (mAP). 

ومع ذلك، فإن بعض النماذج، مثل YOLO12m و YOLO12l و YOLO12x، تعالج الصور بشكل أبطأ من YOLO11 مما يُظهر مفاضلة بين دقة الكشف والسرعة. على الرغم من ذلك، يظل YOLO12 فعّالاً، حيث يتطلب معلمات أقل من العديد من النماذج الأخرى، على الرغم من أنه لا يزال يستخدم أكثر من YOLO11. وهذا يجعله خيارًا رائعًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة الأولية.

الشكل 3. مقارنة بين Ultralytics YOLO11 و YOLO12.

استخدام YOLO12 من خلال حزمة Ultralytics Python

برنامج YOLO12 مدعوم من حزمةUltralytics Python وهو سهل الاستخدام، مما يجعله في متناول كل من المبتدئين والمحترفين. من خلال بضعة أسطر من التعليمات البرمجية، يمكن للمستخدمين تحميل نماذج مُدرّبة مسبقًا، وتشغيل مهام رؤية حاسوبية متنوعة على الصور ومقاطع الفيديو، وكذلك تدريب YOLO12 على مجموعات بيانات مخصصة. تعمل حزمة Ultralytics Python على تبسيط العملية، مما يلغي الحاجة إلى خطوات الإعداد المعقدة.

على سبيل المثال، فيما يلي الخطوات التي يمكنك اتباعها لاستخدام YOLO12 لاكتشاف الأجسام:

  • قم بتثبيت حزمة Ultralytics : أولاً، قم بتثبيت حزمة Ultralytics Python والتي توفر الأدوات اللازمة لتشغيل YOLO12 بكفاءة. يضمن ذلك إعداد جميع التبعيات بشكل صحيح.
  • قم بتحميل نموذج YOLO12 المدرب مسبقًا: اختر متغير YOLO12 المناسب (نانو أو صغير أو متوسط أو كبير أو كبير جدًا) بناءً على مستوى الدقة والسرعة المطلوبة لمهمتك.
  • توفير صورة أو فيديو: أدخل صورة أو ملف فيديو تريد تحليله. يمكن لـ YOLO12 أيضًا معالجة بث الفيديو المباشر للكشف في الوقت الفعلي.
  • تشغيل عملية الكشف: يقوم النموذج بمسح البيانات المرئية، ويحدد الأجسام، ويضع مربعات محددة حولها. يقوم بتسمية كل كائن مكتشف بفئته المتوقعة ودرجة الثقة الخاصة به.
  • ضبط إعدادات الكشف: يمكنك أيضًا تعديل المعلمات مثل عتبات الثقة لضبط دقة الكشف والأداء.
  • حفظ أو استخدام المخرجات: يمكن حفظ الصورة أو الفيديو المعالج، الذي يحتوي الآن على الكائنات المكتشفة، أو دمجها في تطبيق لمزيد من التحليل أو الأتمتة أو اتخاذ القرار.

هذه الخطوات تجعل من YOLO12 سهل الاستخدام في مجموعة متنوعة من التطبيقات، بدءًا من المراقبة وتتبع البيع بالتجزئة إلى التصوير الطبي والمركبات ذاتية القيادة.

تطبيقات YOLO12 العملية

يمكن استخدام YOLO12 في مجموعة متنوعة من التطبيقات الواقعية بفضل دعمه لاكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB). 

الشكل 4. يدعم YOLO12 مهام مثل اكتشاف الكائنات وتجزئة المثيل.

ومع ذلك، كما ناقشنا سابقًا، تعطي نماذج YOLO12 الأولوية للدقة على السرعة، مما يعني أنها تستغرق وقتًا أطول قليلاً لمعالجة الصور مقارنةً بالإصدارات السابقة. هذه المفاضلة تجعل YOLO12 مثاليًا للتطبيقات التي تكون فيها الدقة أكثر أهمية من السرعة في الوقت الفعلي، مثل:

  • التصوير الطبي: يمكن تدريب YOLO12 خصيصًا للكشف عن الأورام أو التشوهات في صور الأشعة السينية والتصوير بالرنين المغناطيسي بدقة عالية، مما يجعله أداة مفيدة للأطباء وأخصائيي الأشعة الذين يحتاجون إلى تحليل دقيق للصور من أجل التشخيص.
  • مراقبة الجودة في التصنيع: يمكن أن يساعد في تحديد عيوب المنتج أثناء عملية الإنتاج، مما يضمن وصول العناصر عالية الجودة فقط إلى السوق مع تقليل الفاقد وتحسين الكفاءة.
  • التحليل الجنائي: يمكن لوكالات إنفاذ القانون ضبط YOLO12 لتحليل لقطات المراقبة وجمع الأدلة. في التحقيقات الجنائية، تعد الدقة أمرًا حيويًا لتحديد التفاصيل الرئيسية.
  • الزراعة الدقيقة: يمكن للمزارعين استخدام YOLO12 لتحليل صحة المحاصيل واكتشاف الأمراض أو الآفات ومراقبة ظروف التربة. وتساعد التقييمات الدقيقة على تحسين استراتيجيات الزراعة، مما يؤدي إلى تحسين إدارة المحاصيل والموارد.

الشروع في استخدام YOLO12

قبل تشغيل YOLO12، من المهم التأكد من أن نظامك يفي بالمتطلبات اللازمة.

من الناحية الفنية، يمكن تشغيل YOLO12 على أي GPU معالجة رسومات مخصصة (وحدة معالجة الرسومات). بشكل افتراضي، لا يتطلب FlashAttention، لذا يمكن أن يعمل على معظم أنظمة GPU بدونه. ومع ذلك، فإن تمكين FlashAttention يمكن أن يكون مفيدًا بشكل خاص عند العمل مع مجموعات البيانات الكبيرة أو الصور عالية الدقة، حيث يساعد على منع التباطؤ وتقليل استخدام الذاكرة وتحسين كفاءة المعالجة. 

لاستخدام FlashAttention، ستحتاج إلىGPU NVIDIA من إحدى هذه السلاسل: Turing (T4، Quadro RTX)، أو Ampere (سلسلة RTX 30، A30، A40، A100)، أو Ada Lovelace (سلسلة RTX 40)، أو Hopper (H100، H200).

مع وضع سهولة الاستخدام وإمكانية الوصول في الاعتبار، لا تدعم حزمة Ultralytics Python حتى الآن استدلال FlashAttention، حيث يمكن أن يكون تثبيتها معقدًا للغاية من الناحية التقنية. لمعرفة المزيد حول بدء استخدام YOLO12 وتحسين أدائه، راجع وثائق Ultralytics الرسمية.

الوجبات الرئيسية

مع تقدم الرؤية الحاسوبية، أصبحت النماذج أكثر دقة وكفاءة. يعمل YOLO12 على تحسين مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور باستخدام المعالجة التي تركز على الانتباه و FlashAttention، مما يعزز الدقة مع تحسين استخدام الذاكرة.

وفي الوقت نفسه، أصبحت الرؤية الحاسوبية متاحة أكثر من أي وقت مضى. إن YOLO12 سهل الاستخدام من خلال حزمة Ultralytics Python ومع تركيزه على الدقة أكثر من السرعة، فهو مناسب تمامًا للتصوير الطبي وعمليات الفحص الصناعي والروبوتات - وهي تطبيقات تكون الدقة فيها أساسية.

هل لديك فضول حول الذكاء الاصطناعي؟ تفضل بزيارة مستودع GitHub الخاص بنا وتفاعل مع مجتمعنا. استكشف الابتكارات في قطاعات مثل الذكاء الاصطناعي في السيارات ذاتية القيادة والرؤية الحاسوبية في الزراعة على صفحات الحلول الخاصة بنا. اطّلع على خيارات الترخيص لدينا واجعل مشاريعك في مجال الذكاء الاصطناعي في Vision AI تنبض بالحياة. 🚀

شعار الفيسبوكشعار تويترشعار LinkedInرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي