انضم إلينا بينما نلقي نظرة فاحصة على ماهية تجزئة النماذج، وكيفية عملها، واستخدامها في تطبيقات الرؤية الحاسوبية المختلفة، والتأثير الذي يمكن أن تحدثه.
أصبحت تطبيقات الرؤية الحاسوبية أكثر شيوعًا في حياتنا اليومية، بدءًا من كاميرات المرور التي تراقب أحوال الطرق إلى أنظمة الدفع الذاتي في المتاجر. من خلال تمكين الآلات من فهم البيانات المرئية بطريقة مشابهة للبشر، يُحدث الذكاء الاصطناعي للرؤية تأثيراً في مجموعة من الصناعات.
تعتمد العديد من هذه التطبيقات على اكتشاف الأجسام، وهي مهمة رؤية حاسوبية تضع مربعات محددة حول الأجسام الرئيسية في الصور. في حين أن هذا النهج غالباً ما يعمل بشكل جيد، فإن بعض حلول تحليل الصور تحتاج إلى دقة أكبر.
على سبيل المثال، يتطلب التصوير الطبي أكثر من مجرد الكشف عن الورم - فمن الضروري تحديد شكله الدقيق. وبالمثل، في مجال الروبوتات، تحتاج الآلات إلى التعرف على الخطوط الدقيقة للجسم لفهمه بشكل صحيح. ولمواجهة هذه التحديات، يوفر تجزئة المثيل حلاً أكثر دقة.
تجزئة المثيل هي مهمة رؤية حاسوبية مصممة لدعم حالات الاستخدام التي لا يكفي فيها اكتشاف الأجسام - فهي توفر دقة على مستوى البكسل. نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 لتطبيق تجزئة المثيل على الصور ومقاطع الفيديو بسهولة.
في هذا الدليل، سنقوم بتفصيل كيفية عمل تجزئة النماذج، وتطبيقاته، وكيف يمكن تدريب Ultralytics YOLO11 بشكل مخصص لمهام تجزئة محددة.
لنفترض أن هناك صورة جماعية لأشخاص يقفون بالقرب من بعضهم البعض. يمكن أن يساعدك اكتشاف الأجسام في رسم مربعات حول كل شخص، ولكن هذا لا يخبرك بشكلهم الدقيق.
أما تجزئة المثيلات، من ناحية أخرى، فهي تشبه تتبع كل شخص بعناية حول كل شخص حتى تتمكن من رؤية مخططه بالكامل، حتى لو كان متداخلاً. بدلاً من مجرد تحديد مكان وجود شيء ما بمربع، فإنه يحدد الشكل الدقيق لكل كائن على مستوى البكسل، مما يسهل فهم الصور المعقدة.
والنتيجة هي قناع مفصّل يملأ شكل الجسم ويحدد بدقة وحدات البكسل التي تنتمي إليه. هذا المستوى من الدقة مفيد في العديد من التطبيقات الواقعية التي يكون فيها فهم الشكل الدقيق وحدود الأجسام أمرًا مهمًا.
أثناء استكشاف تجزئة النماذج، قد تصادف مفهوم التجزئة الدلالية.
تساعد كلتا التقنيتين أجهزة الكمبيوتر على فهم الصور على مستوى البكسل، ولكنهما تخدمان أغراضًا مختلفة. يصنف التجزئة الدلالية كل بكسل بناءً على فئته، ويجمع كل الكائنات من نفس النوع معًا. على سبيل المثال، في صورة تحتوي على عدة سيارات، فإن التجزئة الدلالية تضع علامة "سيارة" على كل منها دون التمييز بين السيارات الفردية.
من ناحية أخرى، يأخذ تجزئة المثيل خطوة إلى الأمام من خلال تحديد كل كائن على حدة. فهو يعيّن تسميات فريدة للمثيلات الفردية وينشئ أقنعة دقيقة حول أشكالها. لذا في نفس الصورة، لن يؤدي تجزئة المثيل إلى تصنيف كل شيء على أنه "سيارة" فحسب، بل سيتعرف على كل سيارة على حدة ويحددها.
والفرق الرئيسي بين الاثنين هو أن التجزئة الدلالية تقوم بتجميع الكائنات حسب الفئة، بينما تجزئة المثيل تميز كل كائن ككيان فريد بحدود واضحة. يعتمد اختيار المهمة التي يجب استخدامها على التطبيق المحدد - ما إذا كان يكفي معرفة ما هو موجود في الصورة أو ما إذا كان من المهم التفريق بين الكائنات الفردية.
هناك العديد من نماذج تجزئة النماذج المتاحة لمجتمع الذكاء الاصطناعي البصري في الوقت الحاضر. بعضها أسرع، وبعضها أكثر دقة، وبعضها أسهل في الاستخدام.
قد تؤدي هذه الخيارات على الرغم من فائدتها إلى طرح السؤال، أيهما الخيار المناسب لاستخدامه في مهمة معينة؟ من بين الخيارات، تحظى نماذج Ultralytics YOLO بشعبية كبيرة لأنها تركز على السرعة والدقة.
كما تطورت هذه النماذج بشكل كبير على مر السنين. على سبيل المثال Ultralytics YOLOv5 نشرًا مبسطًا باستخدام أطر عمل مثل PyTorch مما جعل الذكاء الاصطناعي المتقدم للرؤية في متناول جمهور أوسع دون الحاجة إلى خبرة تقنية عميقة.
بناءً على هذا النجاح Ultralytics YOLOv8 دعمًا محسّنًا لمهام الرؤية الحاسوبية مثل تجزئة المثيل وتقدير الوضعية وتصنيف الصور.
والآن، يرتقي YOLO11 بالأداء إلى مستوى جديد. فهو يحقق متوسط دقة متوسط أعلى (mAP) على مجموعة بيانات COCO بمعلمات أقل بنسبة 22% من YOLOv8m مما يعني أنه يمكنه التعرف على الكائنات بدقة أكبر مع استخدام موارد أقل.
ببساطة، يوفر YOLO11 دقة فائقة دون المساومة على الكفاءة، مما يجعله مغيرًا لقواعد اللعبة في هذا المجال.
بعد ذلك، دعونا نستكشف كيفية عمل تجزئة المثيل عادةً. تستخدم نماذج الرؤية الحاسوبية القديمة نهجاً من خطوتين.
أولاً، يكتشفون الأجسام عن طريق رسم مربعات محددة حولها. بعد ذلك، يقومون بإنشاء قناع على مستوى البكسل لتحديد الشكل الدقيق لكل كائن. أحد الأمثلة المعروفة هي Mask R-CNN، والتي تعتمد على نماذج اكتشاف الكائنات من خلال إضافة خطوة التنبؤ بالقناع. في حين أن هذه الطريقة فعالة، إلا أنها قد تكون بطيئة لأنها تعالج الصورة على مراحل متعددة، مما يجعل التطبيقات في الوقت الحقيقي أكثر صعوبة.
وفي الوقت نفسه، تقوم نماذج مثل YOLO11 بمعالجة الصور دفعة واحدة، والتنبؤ بالمربعات المحيطة بالكائنات وأقنعة تجزئة النماذج في نفس الوقت. هذا النهج المبسط يجعلها أسرع بكثير مع الحفاظ على دقة عالية. ونتيجة لذلك، فهي مفيدة بشكل خاص للتطبيقات في الوقت الحقيقي مثل القيادة الذاتية وتحليل الفيديو والروبوتات، حيث تكون السرعة والدقة أمرًا بالغ الأهمية.
خارج الصندوق، يأتي YOLO11 كنموذج مُدرَّب مسبقًا. وقد تم تدريبه على مجموعة بيانات COCO-Seg، والتي تغطي الكائنات اليومية لتجزئة الكائنات على سبيل المثال. ومع ذلك، فإن حزمة Ultralytics Python تدعم التدريب المخصص، وهو أمر ضروري للتطبيقات المتخصصة التي تحتاج إلى تجزئة كائنات فريدة من نوعها.
ما أهمية التدريب المخصص أو الضبط الدقيق للنموذج؟ يستفيد التدريب المخصص من نقل التعلم من خلال البناء على المعرفة المضمنة بالفعل في النماذج المدربة مسبقًا. فبدلاً من البدء من الصفر، يعمل على تكييف نموذج موجود مع المهام الجديدة باستخدام مجموعات بيانات أصغر وموارد حوسبة أقل، مع الحفاظ على دقة عالية.
فيما يلي نظرة فاحصة على الخطوات المتبعة في ضبط YOLO11 على سبيل المثال تجزئة YOLO11 :
يمكن استخدام تجزئة المثيلات لحل تحديات العالم الحقيقي من خلال مساعدة الآلات على رؤية الأشياء وفهمها بدقة أكبر. بدءاً من تحسين الأتمتة إلى حماية البيئة، فهي تلعب دوراً رئيسياً في العديد من المجالات. دعونا نستعرض بعض الأمثلة على المجالات التي تُحدث فيها هذه التقنية تأثيراً.
يمكن أن يكون تجزئة المثيل جزءًا مهمًا لضمان السلامة والكفاءة في مواقع البناء. على سبيل المثال، يمكن استخدامه لمراقبة الآلات الثقيلة.
يمكن ضبط YOLO11 بدقة لتقسيم وتحديد أنواع مختلفة من المعدات بدقة، مثل الرافعات والحفارات والجرافات وتتبع مواقعها في الوقت الفعلي. يسمح ذلك لمديري الموقع بالتأكد من أن الآلات تعمل بدقة داخل المناطق المحددة ولا تتعدى على المناطق التي يتواجد فيها العمال أو توجد بها مخاطر.
كما أن دمج هذه الحلول مع أنظمة التنبيه في الوقت الفعلي يتيح اتخاذ إجراءات تصحيحية سريعة. بالإضافة إلى ذلك، يمكن أن تساعد الرؤى التي تم جمعها في تحسين تخطيط الموقع وسير العمل، مما يقلل من المخاطر ويعزز الإنتاجية.
تساعد مراقبة سلوك الحيوانات الباحثين والمزارعين والمحافظين على البيئة على رعاية الحيوانات في بيئات مختلفة بشكل أفضل. يلعب تجزئة المثيل دورًا مفيدًا في هذه الأنظمة من خلال تحديد وتجزئة الحيوانات الفردية في المزارع وحدائق الحيوان والموائل الطبيعية. على عكس الكشف التقليدي عن الكائنات الذي يستخدم المربعات المحددة، يوفر تجزئة المثيل تحديدًا على مستوى البكسل لكل حيوان، وهو أمر مفيد بشكل خاص عندما تكون الحيوانات على مقربة من بعضها البعض.
يسهل التجزئة التفصيلية تتبع الحركات والسلوكيات بشكل أكثر دقة. يمكن التعرف بشكل واضح على الحيوانات المتداخلة أو المتقاربة في مجموعات متقاربة، وتوفير تحليل أكثر دقة للتفاعلات والتقييمات الصحية وأنماط النشاط. وبشكل عام، تعزز الرؤى الأعمق لسلوك الحيوانات من ممارسات رعاية الحيوانات وإدارتها.
يعد التتبع الدقيق للاعبين والأحداث جزءاً كبيراً من التحليل الرياضي. تعتمد طرق التتبع التقليدية على وضع علامات يدوية، والتي قد لا تلتقط التفاعلات التفصيلية. يمكن استخدام الرؤية الحاسوبية لتجزئة التفاصيل مثل كل لاعب وكرة وحدث رئيسي على مستوى البكسل للحصول على رؤى تفصيلية.
على سبيل المثال، يمكن أن يساعد تجزئة النماذج في اكتشاف أحداث مثل الأخطاء أو الحوادث خارج الكرة من خلال الفصل الواضح بين كل لاعب وجسم. توفر هذه المراقبة التفصيلية التي تتيحها نماذج مثل YOLO11 للمحللين معلومات أوضح لدراسة أنماط الحركة والتموضع المكاني والتفاعلات بدقة عالية. من الفوائد الرئيسية لهذه الرؤى أنها تساعد الفرق على تحسين استراتيجياتها وتعزيز الأداء العام.
فيما يلي بعض الفوائد الرئيسية التي يمكن أن يجلبها تجزئة المثيل إلى مختلف الصناعات:
في حين أن هذه الفوائد تسلط الضوء على كيفية تأثير تجزئة المثيل على حالات الاستخدام المختلفة، فمن الضروري أيضًا النظر في التحديات التي ينطوي عليها تنفيذه.
فيما يلي بعض القيود الرئيسية لتجزئة النماذج:
يتيح تجزئة المثيل إمكانية تمييز الكائنات الفردية بدقة، حتى عندما تكون متداخلة. من خلال التقاط حدود الكائنات على مستوى البكسل، فإنه يوفر فهمًا أعمق للبيانات المرئية مقارنةً بمهام الرؤية الحاسوبية التقليدية مثل اكتشاف الكائنات.
جعلت التطورات الحديثة في مجال الرؤية الحاسوبية تجزئة النماذج أسرع وأسهل في الاستخدام. على وجه الخصوص، تعمل نماذج الرؤية الحاسوبية مثل Ultralytics YOLO11 على تبسيط العملية، مما يتيح التجزئة في الوقت الفعلي بأقل قدر من الإعداد، مما يجعلها أكثر سهولة لمختلف الصناعات والتطبيقات.
هل لديك فضول حول الذكاء الاصطناعي؟ تفضل بزيارة مستودع GitHub الخاص بنا وتواصل مع مجتمعنا لمواصلة الاستكشاف. تعرّف على ابتكارات مثل الذكاء الاصط ناعي في السيارات ذاتية القيادة والذكاء الاصطناعي البصري في الزراعة على صفحات الحلول الخاصة بنا. اطلع على خيارات الترخيص لدينا وابدأ في مشروع رؤية الكمبيوتر!