توسيم البيانات للرؤية الحاسوبية Ultralytics

يركز الذكاء الاصطناعي (AI) على منح الآلات قدرات شبيهة بالقدرات البشرية، وإحدى الطرق الأكثر شيوعًا للقيام بذلك هي من خلال التعلم الخاضع للإشراف. بمعنى آخر، يمكن أن يساعد تعليم نماذج الذكاء الاصطناعي من خلال عرض أمثلة مصنفة عليها في التعلم من الأنماط والتحسن في المهام. إنه مشابه جدًا لكيفية تعلم البشر من التجربة. إذن، كيف يتم إنشاء هذه الأمثلة المصنفة؟

يتضمن توصيف البيانات وضع علامات أو تسميات على البيانات لمساعدة خوارزميات تعلم الآلة على فهمها. في رؤية الحاسوب، يعني هذا وضع علامات على الصور أو مقاطع الفيديو للتعرف على الكائنات أو الإجراءات أو المشاهد وتصنيفها بدقة. يعد توصيف البيانات أمرًا حيويًا لأن نجاح نموذج الذكاء الاصطناعي يعتمد بشكل كبير على جودة البيانات الموصوفة التي يتم تدريبه عليها.

تظهر الدراسات أن أكثر من 80% من وقت مشروع الذكاء الاصطناعي يُقضى في إدارة البيانات، بدءًا من جمعها وتجميعها وحتى تنظيفها وتصنيفها. وهذا يدل على مدى أهمية ترميز البيانات في تطوير نموذج الذكاء الاصطناعي. إن استخدام بيانات مشروحة عالية الجودة يجعل من الممكن لنماذج الذكاء الاصطناعي أداء مهام مثل التعرف على الوجه و اكتشاف الكائنات بدقة وموثوقية أكبر في مواقف العالم الحقيقي.

لماذا تعد إضافة التعليقات التوضيحية للبيانات ضرورية؟

يشكل ترميز البيانات الأساس الذي يحدد مدى جودة أداء نموذج رؤية الكمبيوتر. البيانات المسماة هي الحقيقة الأساسية التي يستخدمها النموذج للتعلم وتقديم التنبؤات. تعتبر بيانات الحقيقة الأساسية أساسية لأنها تمثل العالم الحقيقي الذي يحاول النموذج فهمه. بدون هذا الأساس الموثوق به، سيكون نموذج الذكاء الاصطناعي مثل سفينة تبحر بدون بوصلة.

__wf_reserved_inherit — الشكل 1. الحقيقة الأساسية مقابل التوقع.

‍

يساعد وضع العلامات الدقيقة هذه النماذج على فهم ما يرونه ويؤدي إلى اتخاذ قرارات أفضل. إذا كانت البيانات تحمل علامات سيئة أو غير متسقة، فسوف يكافح النموذج لاتخاذ التنبؤات والقرارات الصحيحة، تمامًا مثل الطالب الذي يتعلم من الكتب المدرسية غير الصحيحة. بفضل البيانات المشروحة، يمكن للنموذج تعلم مهام مثل تصنيف الصور و تجزئة المثيلات و تقدير الوضعية للكائنات في الصور ومقاطع الفيديو.

أفضل الموارد لمجموعات البيانات

قبل إنشاء مجموعة بيانات جديدة تمامًا وتصنيف الصور ومقاطع الفيديو بدقة، من الجيد التحقق مما إذا كان بإمكانك استخدام مجموعات البيانات الموجودة مسبقًا لمشروعك. هناك العديد من المستودعات مفتوحة المصدر الرائعة حيث يمكنك الوصول إلى مجموعات بيانات عالية الجودة مجانًا. تتضمن بعض أشهرها ما يلي:

ImageNet: تُستخدم عادةً لتدريب نماذج تصنيف الصور.
‍
COCO: صُممت مجموعة البيانات هذه لاكتشاف الأجسام وتجزئتها وتفسير الصور.
‍
باسكال VOC: يدعم مهام الكشف عن الكائنات وتجزئتها.

‍

عند اختيار مجموعة بيانات، من المهم مراعاة عوامل مثل مدى ملاءمتها لمشروعك وحجم مجموعة البيانات وتنوعها وجودة التصنيفات. أيضًا، تأكد من مراجعة شروط الترخيص لمجموعة البيانات لتجنب أي تداعيات قانونية، وتحقق مما إذا كانت البيانات منسقة بطريقة تناسب سير عملك وأدواتك.

يعد إنشاء مجموعة بيانات مخصصة خيارًا رائعًا إذا كانت مجموعات البيانات الحالية لا تناسب احتياجاتك تمامًا. يمكنك جمع الصور باستخدام أدوات مثل كاميرات الويب أو الطائرات بدون طيار أو الهواتف الذكية، اعتمادًا على ما يتطلبه مشروعك. من الناحية المثالية، يجب أن تكون مجموعة البيانات المخصصة الخاصة بك متنوعة ومتوازنة وتمثل المشكلة التي تحاول حلها حقًا. قد يعني هذا التقاط الصور في ظروف إضاءة مختلفة ومن زوايا مختلفة وعبر بيئات متعددة.

إذا كنت قادرًا فقط على جمع عدد أقل من الصور أو مقاطع الفيديو، فإن زيادة البيانات هي تقنية مفيدة. وهي تنطوي على توسيع مجموعة البيانات الخاصة بك عن طريق تطبيق تحويلات مثل التدوير أو التقليب أو تعديلات الألوان على الصور الموجودة. فهي تزيد من حجم مجموعة البيانات الخاصة بك وتجعل النموذج الخاص بك أكثر قوة وأفضل قدرة على التعامل مع الاختلافات في البيانات. باستخدام مزيج من مجموعات البيانات مفتوحة المصدر ومجموعات البيانات المخصصة والبيانات المعززة، يمكنك تحسين أداء نماذج الرؤية الحاسوبية بشكل كبير.

أنواع تقنيات ترميز الصور

قبل البدء في إضافة التعليقات التوضيحية إلى الصور، من المهم أن تكون على دراية بالأنواع المختلفة من التعليقات التوضيحية. سيساعدك ذلك في اختيار النوع المناسب لمشروعك. بعد ذلك، سنلقي نظرة على بعض الأنواع الرئيسية من التعليقات التوضيحية.

مربعات الإحاطة (Bounding boxes)

المربعات المحيطة هي النوع الأكثر شيوعًا من التعليقات التوضيحية في الرؤية الحاسوبية. وهي عبارة عن مربعات مستطيلة تستخدم لتمييز موقع الكائن في الصورة. يتم تحديد هذه المربعات من خلال إحداثيات زواياها، وتساعد نماذج الذكاء الاصطناعي على تحديد مواقع الكائنات وتحديدها. تستخدم المربعات المحيطة بشكل أساسي في اكتشاف الكائنات.

‍

أقنعة التجزئة

في بعض الأحيان، يجب الكشف عن كائن بدقة أكبر من مجرد مربع إحاطة مرسوم حوله. قد تكون مهتمًا بحدود الكائنات في الصورة. في هذه الحالة، تتيح لك أقنعة التجزئة تحديد الخطوط العريضة للكائنات المعقدة. أقنعة التجزئة هي تمثيل أكثر تفصيلاً على مستوى البكسل.

يمكن استخدام هذه الأقنعة لـ التجزئة الدلالية و تجزئة المثيل. تتضمن التجزئة الدلالية تسمية كل بكسل في الصورة وفقًا للكائن أو المنطقة التي تمثلها، مثل المشاة أو السيارة أو الطريق أو الرصيف. ومع ذلك، فإن تجزئة المثيل تذهب خطوة أخرى إلى الأمام من خلال تحديد وفصل كل كائن على حدة، مثل التمييز بين كل سيارة في الصورة، حتى لو كانت جميعها من نفس النوع.

‍

متوازيات مستطيلة ثلاثية الأبعاد

تشبه المتوازيات المستطيلة ثلاثية الأبعاد مربعات الإحاطة، ولكن ما يجعلها فريدة هو أنها تضيف معلومات العمق وتوفر تمثيلًا ثلاثي الأبعاد للكائن. تسمح هذه المعلومات الإضافية للأنظمة بفهم شكل وحجم وموضع الكائنات في الفضاء ثلاثي الأبعاد. غالبًا ما تستخدم المتوازيات المستطيلة ثلاثية الأبعاد في السيارات ذاتية القيادة لقياس المسافة بين الكائنات والمركبة.

‍

النقاط الرئيسية والمعالم

نوع آخر مثير للاهتمام من التعليقات التوضيحية هو النقاط الرئيسية، حيث يتم تحديد نقاط معينة مثل العيون أو الأنوف أو المفاصل على الكائنات. تأخذ المعالم هذا إلى أبعد من ذلك من خلال ربط هذه النقاط لالتقاط بنية وحركة الأشكال الأكثر تعقيدًا، مثل الوجوه أو وضعيات الجسم. تُستخدم هذه الأنواع من التعليقات التوضيحية لتطبيقات مثل التعرف على الوجوه والتقاط الحركة والواقع المعزز. كما أنها تحسن دقة نماذج الذكاء الاصطناعي في مهام مثل التعرف على الإيماءات أو تحليل الأداء الرياضي.

‍

كيفية إضافة تعليقات توضيحية للبيانات باستخدام labelImg

والآن بعد أن ناقشنا الأنواع المختلفة من التعليقات التوضيحية، دعنا نفهم كيف يمكنك وضع تعليقات توضيحية للصور باستخدام أداة شائعة، LabelImg. LabelImg هي أداة مفتوحة المصدر تجعل التعليقات التوضيحية للصور بسيطة، ويمكن استخدامها لإنشاء مجموعات بيانات بتنسيق YOLO (أنت تنظر مرة واحدة فقط). إنه خيار رائع للمبتدئين الذين يعملون على مشاريعUltralytics YOLOv8 الصغيرة.

إعداد LabelImg بسيط ومباشر. أولاً، تأكد من تثبيت Python 3 على حاسوبك. بعد ذلك، يمكنك تثبيت LabelImg بأمر سريع.

بمجرد تثبيته، يمكنك بدء تشغيل الأداة باستخدام الأمر:

يعمل LabelImg على منصات متعددة، بما في ذلك Windows و macOS و Linux. إذا واجهت أي مشكلات أثناء التثبيت، فيمكن لمستودع LabelImg الرسمي تزويدك بتعليمات أكثر تفصيلاً.

‍

بمجرد تشغيل الأداة، اتبع هذه الخطوات البسيطة لبدء تسمية صورك:

إعداد الفئات الخاصة بك: ابدأ بتحديد قائمة الفئات التي تريد وضع علامات عليها في ملف باسم “predefined_classes.txt.” يتيح هذا الملف للبرنامج معرفة الأجسام التي ستضع عليها علامات في صورك.
‍
قم بالتبديل إلى تنسيق YOLO : بشكل افتراضي، يستخدم LabelImg تنسيق PASCAL VOC ولكن إذا كنت تعمل بتنسيق YOLO فستحتاج إلى التبديل بين التنسيقات. فقط انقر على زر "PascalVOC" على شريط الأدوات للتبديل إلى YOLO.
‍
ابدأ التعليق التوضيحي: استخدم خياري "فتح" أو "OpenDIR" لتحميل صورك. ثم ارسم المربعات المحدودة حول الكائنات التي تريد وضع تعليقات توضيحية عليها وقم بتعيين تسمية الفئة الصحيحة. بعد تسمية كل صورة، احفظ عملك. سينشئ LabelImg ملفًا نصيًا بنفس اسم صورتك، يحتوي على تعليقات YOLO التوضيحية.
‍
الحفظ والمراجعة: يتم حفظ التعليقات التوضيحية في ملف .txt بتنسيق YOLO . يحفظ البرنامج أيضًا ملف "classes.txt" الذي يسرد جميع أسماء الفصول الدراسية.

استراتيجيات فعالة لوضع العلامات على البيانات

لتسهيل عملية تصنيف البيانات، هناك بعض الاستراتيجيات الرئيسية التي يجب وضعها في الاعتبار. على سبيل المثال، تعد إرشادات التصنيف الواضحة أمرًا بالغ الأهمية. فبدونها، قد يفسر المصنفون المختلفون المهمة بشكل مختلف.

لنفترض أن المهمة هي إضافة تعليقات توضيحية للطيور في الصور باستخدام مربعات إحاطة. قد يقوم أحد المعلقين بتسمية الطائر بأكمله، بينما قد يقوم آخر بتسمية الرأس أو الأجنحة فقط. يمكن أن يؤدي هذا النوع من التناقض إلى إرباك النموذج أثناء التدريب. من خلال توفير تعريفات واضحة، مثل "تسمية الطائر بأكمله بما في ذلك الأجنحة والذيل"، جنبًا إلى جنب مع الأمثلة والإرشادات للحالات الصعبة، يمكنك التأكد من أن البيانات يتم وضع علامات عليها بدقة وثبات.

تعتبر فحوصات الجودة المنتظمة مهمة أيضًا للحفاظ على معايير عالية. من خلال تحديد المعايير واستخدام مقاييس محددة لمراجعة العمل، يمكنك الحفاظ على دقة البيانات وتحسين العملية من خلال الملاحظات المستمرة.

تصنيف البيانات باختصار

إن ترميز البيانات هو مفهوم بسيط يمكن أن يكون له تأثير كبير على نموذج رؤية الكمبيوتر الخاص بك. سواء كنت تستخدم أدوات مثل LabelImg لترميز الصور أو تدريب النماذج على مجموعات البيانات مفتوحة المصدر، فإن فهم ترميز البيانات أمر أساسي. يمكن أن تساعد استراتيجيات ترميز البيانات في تبسيط العملية بأكملها وجعلها أكثر كفاءة. يمكن أن يؤدي تخصيص الوقت لتحسين أسلوب الترميز الخاص بك إلى نتائج ذكاء اصطناعي أفضل وأكثر موثوقية.

استمر في استكشاف وتوسيع مهاراتك! ابق على اتصال بـ مجتمعنا لمواصلة التعلم عن الذكاء الاصطناعي! تحقق من مستودع GitHub الخاص بنا لاكتشاف كيف نستخدم الذكاء الاصطناعي لإنشاء حلول مبتكرة في صناعات مثل التصنيع و الرعاية الصحية. 🚀

استكشاف وضع العلامات على البيانات لمشاريع الرؤية الحاسوبية.

لماذا تعد إضافة التعليقات التوضيحية للبيانات ضرورية؟

أفضل الموارد لمجموعات البيانات