شيك أخضر
تم نسخ الرابط إلى الحافظة

استكشاف أفضل مجموعات بيانات الرؤية الحاسوبية في عام 2025

انضم إلينا ونحن نلقي نظرة فاحصة على أفضل مجموعات بيانات الرؤية الحاسوبية لعام 2025. تعرّف على كيفية مساهمة مجموعات البيانات المتنوعة وعالية الجودة في تعزيز حلول الذكاء الاصطناعي للرؤية المرئية الأكثر ذكاءً.

هل تعلم أن البيانات تلعب دوراً في كل ما تفعله يومياً تقريباً؟ تساهم مشاهدة مقطع فيديو أو التقاط صورة أو التحقق من خرائط Google في التدفق المستمر للمعلومات التي يلتقطها أكثر من 75 مليار جهاز متصل بالإنترنت. تشكل هذه الأجزاء من البيانات أساس الذكاء الاصطناعي (AI). في الواقع، نماذج الرؤية الحاسوبية المتقدمة مثل Ultralytics YOLO11 على البيانات المرئية لتحديد الأنماط وتفسير الصور وفهم العالم من حولنا.

ومن المثير للاهتمام أن قيمة البيانات لا تتعلق فقط بالكمية. بل الأهم من ذلك هو مدى جودة تنظيمها وإعدادها. إذا كانت مجموعة البيانات فوضوية أو غير مكتملة، فقد يؤدي ذلك إلى حدوث أخطاء. ومع ذلك، عندما تكون مجموعات البيانات نظيفة ومتنوعة، فإنها تساعد نماذج الرؤية الحاسوبية على الأداء بشكل أفضل، سواء كان ذلك في التعرف على الأشياء في حشد من الناس أو تحليل المرئيات المعقدة. تُحدث مجموعات البيانات عالية الجودة كل الفرق.

في هذه المقالة، سنستكشف أفضل مجموعات بيانات الرؤية الحاسوبية لعام 2025 ونرى كيف تساهم في بناء نماذج رؤية حاسوبية أكثر دقة وكفاءة. لنبدأ!

ما هي مجموعات بيانات الرؤية الحاسوبية؟

مجموعة بيانات الرؤية الحاسوبية هي مجموعة من الصور أو مقاطع الفيديو التي تساعد أنظمة الرؤية الحاسوبية على تعلم فهم المعلومات البصرية والتعرف عليها. تأتي مجموعات البيانات هذه مع تسميات أو تعليقات توضيحية تساعد النماذج على التعرف على الأشياء والأشخاص والمشاهد والأنماط داخل البيانات.

يمكن استخدامها لتدريب نماذج الرؤية الحاسوبية، مما يساعدها على تحسين مهام مثل التعرف على الوجوه أو اكتشاف الأجسام أو تحليل المشاهد. وكلما كانت مجموعة البيانات أفضل - جيدة التنظيم ومتنوعة ودقيقة - كان أداء نموذج الرؤية بالذكاء الاصطناعي أفضل، مما يؤدي إلى تكنولوجيا أكثر ذكاءً وفائدة في الحياة اليومية.

كيفية بناء مجموعة بيانات الرؤية الحاسوبية

إن بناء مجموعة بيانات الرؤية الحاسوبية يشبه إعداد ملاحظات دراسية لتعليم شخص ما كيفية رؤية العالم وفهمه. يبدأ كل شيء بجمع الصور ومقاطع الفيديو التي تتطابق مع التطبيق المحدد الذي تقوم بتطويره. 

تشتمل مجموعة البيانات المثالية على أمثلة متنوعة للأجسام محل الاهتمام، والتي تم التقاطها من زوايا مختلفة، وتحت ظروف إضاءة مختلفة، وفي خلفيات وبيئات متعددة. يضمن هذا التنوع أن نموذج الرؤية الحاسوبية يتعلم التعرف على الأنماط بدقة ويؤدي بشكل موثوق في سيناريوهات العالم الحقيقي.

الشكل 1. بناء مجموعة بيانات الرؤية المثالية. الصورة للمؤلف.

بعد جمع الصور ومقاطع الفيديو ذات الصلة، فإن الخطوة التالية هي وضع العلامات على البيانات. تتضمن هذه العملية إضافة علامات أو تعليقات توضيحية أو أوصاف إلى البيانات حتى يتمكن الذكاء الاصطناعي من فهم ما تحتويه كل صورة أو مقطع فيديو. 

يمكن أن تتضمن التسميات أسماء الكائنات أو مواقعها أو حدودها أو غيرها من التفاصيل ذات الصلة التي تساعد في تدريب النموذج على التعرف على المعلومات المرئية وتفسيرها بدقة. تعمل تسمية البيانات على تحويل مجموعة بسيطة من الصور إلى مجموعة بيانات منظمة يمكن استخدامها لتدريب نموذج رؤية حاسوبية.

يتطلب التدريب على النماذج بيانات عالية الجودة

قد تتساءل ما الذي يجعل مجموعة البيانات عالية الجودة. هناك العديد من العوامل المعنية، مثل التسمية الدقيقة والتنوع والاتساق. على سبيل المثال، إذا قام العديد من المُعلّقين بتسمية مجموعة بيانات الكشف عن الكائنات لتحديد آذان القطط، فقد يقوم أحدهم بتسميتها كجزء من الرأس بينما يقوم آخر بتسميتها بشكل منفصل كأذنين. هذا التناقض يمكن أن يربك النموذج ويؤثر على قدرته على التعلم بشكل صحيح.

إليك نظرة عامة سريعة على صفات مجموعة بيانات الرؤية الحاسوبية المثالية:

  • تسميات واضحة: كل صورة مشروحة بدقة مع تسميات متسقة ودقيقة.
  • بيانات متنوعة: تتضمن مجموعة البيانات كائنات وخلفيات وظروف إضاءة وزوايا مختلفة لمساعدة النموذج على العمل بشكل جيد في مواقف مختلفة.
  • صور عالية الدقة: تسهّل الصور الواضحة والمفصّلة على النموذج التعلّم والتعرّف على الميزات.

تدعم Ultralytics مجموعات بيانات متنوعة

صُممت نماذج Ultralytics YOLO مثل YOLO11 للعمل مع مجموعات البيانات بتنسيق ملف YOLO محدد. على الرغم من سهولة تحويل بياناتك الخاصة إلى هذا التنسيق، إلا أننا نوفر أيضًا خيارًا خاليًا من المتاعب لأولئك الذين يرغبون في بدء التجربة على الفور. 

تدعم حزمةUltralytics Python مجموعة واسعة من مجموعات بيانات الرؤية الحاسوبية، مما يتيح لك الغوص في المشاريع باستخدام مهام مثل اكتشاف الكائنات أو تجزئة المثيل أو تقدير الوضع دون أي إعداد إضافي.  

يمكن للمستخدمين الوصول بسهولة إلى مجموعات البيانات الجاهزة للاستخدام مثل COCO و DOTA-v2.0 و Open Images V7 و ImageNet من خلال تحديد اسم مجموعة البيانات كأحد المعلمات في وظيفة التدريب. عند القيام بذلك، يتم تنزيل مجموعة البيانات تلقائيًا وتهيئتها مسبقًا، بحيث يمكنك التركيز على بناء نماذجك وتحسينها.

أفضل 5 مجموعات بيانات للرؤية الحاسوبية في عام 2025

تعتمد التطورات في مجال الذكاء الاصطناعي البصري على مجموعات البيانات المتنوعة واسعة النطاق التي تدفع الابتكار وتتيح تحقيق الإنجازات. دعونا نلقي نظرة على بعض أهم مجموعات البيانات، التي تدعمها Ultralytics والتي تؤثر على نماذج الرؤية الحاسوبية.

مجموعة بيانات ImageNet 

ImageNet، التي أنشأتها فيي-فيي لي وفريقها في جامعة برينستون في عام 2007 وتم تقديمها في عام 2009، هي مجموعة بيانات كبيرة تضم أكثر من 14 مليون صورة مصنفة. تُستخدم على نطاق واسع لتدريب الأنظمة على التعرف على الأشياء المختلفة وتصنيفها. تصميمها المنظم يجعلها مفيدة بشكل خاص لتعليم النماذج تصنيف الصور بدقة. وعلى الرغم من أنها موثقة بشكل جيد، إلا أنها تركز في المقام الأول على تصنيف الصور وتفتقر إلى شروح مفصلة لمهام مثل اكتشاف الأجسام. 

إليك نظرة على بعض نقاط القوة الرئيسية في ImageNet:

  • التنوع: مع وجود صور تغطي أكثر من 20,000 فئة، تقدم ImageNet مجموعة بيانات واسعة ومتنوعة تعزز تدريب النموذج وتعميمه.
  • تنظيم منظم: يتم تصنيف الصور بدقة باستخدام التسلسل الهرمي لـ WordNet، مما يسهل استرجاع البيانات بكفاءة وتدريب النموذج المنهجي. 
  • توثيق شامل: أبحاث مستفيضة وسنوات من الدراسة تجعل ImageNet في متناول كل من المبتدئين والخبراء على حد سواء، مما يوفر رؤى وإرشادات قيمة لمشاريع الرؤية الحاسوبية.

ومع ذلك، مثل أي مجموعة بيانات، فإن لها حدودها. وفيما يلي بعض التحديات التي يجب مراعاتها:

  • المتطلبات الحاسوبية: يمكن أن يشكل حجمها الضخم تحديات للفرق الصغيرة ذات الموارد الحاسوبية المحدودة.
  • نقص البيانات الزمنية: نظرًا لاحتوائه على صور ثابتة فقط، فقد لا يلبي احتياجات التطبيقات التي تتطلب بيانات فيديو أو بيانات تستند إلى الوقت.
  • صور قديمة: بعض الصور الموجودة في مجموعة البيانات قديمة وقد لا تعكس الكائنات أو الأنماط أو البيئات الحالية، مما قد يقلل من ملاءمتها للتطبيقات الحديثة.

مجموعة بيانات DOTA-v2.0

إن مجموعة بيانات DOTA-v2.0، حيث يرمز DOTA إلى مجموعة بيانات للكشف عن الأجسام في الصور الجوية، وهي مجموعة واسعة من الصور الجوية التي تم إنشاؤها خصيصًا للكشف عن الأجسام في المربع المحيط الموجه (OBB). في عملية الكشف عن الأجسام في OBB، يتم استخدام المربعات المحدّدة المدوّرة لمحاذاة أكثر دقة مع الاتجاه الفعلي للأجسام في الصورة. تعمل هذه الطريقة بشكل جيد بشكل خاص مع الصور الجوية، حيث تظهر الأجسام غالبًا في زوايا مختلفة، مما يؤدي إلى تحديد موقع أكثر دقة واكتشاف أفضل بشكل عام.

تتألف مجموعة البيانات هذه من أكثر من 11,000 صورة وأكثر من 1.7 مليون مربع محدد موجه عبر 18 فئة من فئات الأجسام. تتراوح الصور من 800×800 إلى 20,000×20,000 بكسل، وتتضمن أجسامًا مثل الطائرات والسفن والمباني. 

الشكل 2. أمثلة على الصور والشروح من مجموعة بيانات DOTA-v2.0. الصورة للمؤلف.

بسبب شروحه التفصيلية، أصبح DOTA-v2.0 خيارًا شائعًا لمشاريع الاستشعار عن بُعد والمراقبة الجوية. فيما يلي بعض الميزات الرئيسية لبرنامج DOTA-v2.0:

  • فئات كائنات متنوعة: يغطي العديد من أنواع الأجسام المختلفة، مثل المركبات والموانئ وصهاريج التخزين، مما يتيح للنماذج التعرض لمختلف الأجسام في العالم الحقيقي.
  • تعليقات توضيحية عالية الجودة: قدم الشارحون الخبراء شروحاً دقيقة المربعات المحدودة الموجهة بدقة والتي تُظهر بوضوح أشكال الكائنات واتجاهاتها.
  • صور متعددة المقاييس: تشتمل مجموعة البيانات على صور بأحجام مختلفة، مما يساعد النماذج على تعلم كيفية اكتشاف الأجسام بمقاييس صغيرة وكبيرة.

بينما يتمتع DOTA-v2 بالعديد من نقاط القوة، إليك بعض القيود التي يجب على المستخدمين أخذها في الاعتبار:

  • خطوات تنزيل إضافية: نظرًا للطريقة التي يتم بها الاحتفاظ بمجموعة بيانات DOTA، يتطلب DOTA-v2.0 خطوة إعداد إضافية. تحتاج أولاً إلى تنزيل صور DOTA-v1.0 ثم إضافة الصور الإضافية والشروح التوضيحية المحدّثة ل DOTA-v2.0 لإكمال مجموعة البيانات.
  • التعليقات التوضيحية المعقدة: قد تتطلب المربعات المحدودة الموجهة جهدًا إضافيًا للتعامل معها أثناء تدريب النموذج.
  • نطاق محدود: صُمم DOTA-v2 للصور الجوية، مما يجعله أقل فائدة لمهام اكتشاف الأجسام العامة خارج هذا المجال.

مجموعة بيانات Roboflow 100 

تم إنشاء مجموعة بيانات Roboflow 100 (RF100) بواسطة Roboflow بدعم من Intel. يمكن استخدامها لاختبار وقياس مدى جودة عمل نماذج اكتشاف الكائنات. تتضمن مجموعة البيانات المعيارية هذه 100 مجموعة بيانات مختلفة تم اختيارها من بين أكثر من 90,000 مجموعة بيانات عامة. تحتوي على أكثر من 224,000 صورة و800 فئة من فئات الكائنات من مجالات مثل الرعاية الصحية والمناظر الجوية والألعاب. 

فيما يلي بعض المزايا الرئيسية لاستخدام RF100:

  • تغطية واسعة النطاق: يتضمن مجموعات بيانات من سبعة مجالات، مثل التصوير الطبي والمناظر الجوية والاستكشاف تحت الماء. 
  • يشجع على تحسين النموذج: يكشف التباين والتحديات الخاصة بالمجال في RF100 عن وجود ثغرات في النماذج الحالية، مما يدفع البحث نحو حلول أكثر قابلية للتكيف وقوة في اكتشاف الأجسام.
  • تنسيق صورة متناسق: يتم تغيير حجم جميع الصور إلى 640 × 640 بكسل. يساعد ذلك المستخدمين على تدريب النماذج دون الحاجة إلى ضبط أحجام الصور.

على الرغم من نقاط القوة التي يتمتع بها RF100، إلا أن له بعض العيوب التي يجب وضعها في الاعتبار:

  • محدودة من حيث المهام: تم تصميم RF100 لاكتشاف الأجسام، لذا لا يمكنه استيعاب مهام مثل التجزئة أو التصنيف.
  • التركيز على المعايير: تم تصميم RF100 في المقام الأول كأداة قياس مرجعية بدلاً من التركيز على نماذج التدريب للتطبيقات الواقعية، لذلك قد لا تُترجم نتائجه بالكامل إلى سيناريوهات النشر العملية.
  • تباين التعليقات التوضيحية: نظرًا لأن RF100 يجمع مجموعات بيانات من مصادر جماعية، يمكن أن يكون هناك تناقضات في جودة التعليقات التوضيحية وممارسات التسمية، مما قد يؤثر على تقييم النموذج وضبطه.

مجموعة بيانات COCO (كائنات مشتركة في السياق)

تُعد مجموعة بيانات COCO واحدة من أكثر مجموعات بيانات الرؤية الحاسوبية استخدامًا، حيث تقدم أكثر من 330,000 صورة مع شروح مفصلة للصور. وهي مصممة لاكتشاف الأجسام وتجزئتها وتفسير الصور، مما يجعلها مورداً قيماً للعديد من المشاريع. تساعد تسمياتها التفصيلية، بما في ذلك المربعات المحيطة وأقنعة التجزئة، الأنظمة على تعلم تحليل الصور بدقة.

تشتهر مجموعة البيانات هذه بمرونتها وهي مفيدة لمختلف المهام، من المشاريع البسيطة إلى المعقدة. وقد أصبحت معياراً في مجال الذكاء الاصطناعي المرئي، وكثيراً ما تُستخدم في التحديات والمسابقات لتقييم أداء النموذج.

تتضمن بعض نقاط قوتها ما يلي:

  • بيانات متنوعة وواقعية: تشتمل مجموعة البيانات على صور من سيناريوهات واقعية مع العديد من الأجسام والانسدادات وظروف الإضاءة المتنوعة.
  • اعتماد قوي من المجتمع والأبحاث: تُستخدم مجموعة بيانات COCO في مسابقات وأبحاث التعلّم الآلي الرئيسية، وهي مستخدمة في مسابقات وأبحاث التعلّم الآلي الرئيسية، وتحتوي مجموعة بيانات COCO على وثائق موسعة ونماذج مُدرّبة مسبقاً ودعم مجتمعي نشط.
  • شروح توضيحية غنية ومفصلة: توفر مجموعة بيانات COCO تعليقات توضيحية مفصلة للغاية، بما في ذلك تجزئة الكائنات والنقاط الرئيسية والتعليقات التوضيحية، مما يجعلها مثالية للمشاريع التي تتطلب فهماً بصرياً دقيقاً.

إليك بعض العوامل المقيدة التي يجب أن تكون على دراية بها أيضاً:

  • متطلبات حاسوبية عالية: نظرًا لحجمها وتعقيدها، يمكن أن تتطلب نماذج التدريب على COCO موارد حاسوبية كبيرة، مما يجعلها صعبة بالنسبة للفرق ذات الأجهزة المحدودة.
  • عدم توازن البيانات: تحتوي بعض فئات الكائنات على صور أكثر بكثير من غيرها، مما قد يؤدي إلى التحيز في تدريب النموذج.
  • بنية التعليقات التوضيحية المعقدة: قد تكون التعليقات التوضيحية المفصلة لمجموعة البيانات، على الرغم من قيمتها الكبيرة، مربكة للمبتدئين أو للفرق الصغيرة التي تفتقر إلى الخبرة في العمل مع مجموعات بيانات Vision AI المنظمة.

مجموعة بيانات الصور المفتوحة V7

Open Images V7 عبارة عن مجموعة بيانات ضخمة مفتوحة المصدر برعاية Google تضم أكثر من 9 ملايين صورة مع شروح توضيحية لـ 600 فئة من فئات الكائنات. تتضمن مجموعة متنوعة من أنواع التعليقات التوضيحية وهي مثالية لمعالجة مهام الرؤية الحاسوبية المعقدة. يوفر حجمها وعمقها مورداً شاملاً لتدريب واختبار نماذج الرؤية الحاسوبية.

الشكل 3. لمحة عن مجموعة بيانات الصور المفتوحة V7. الصورة للمؤلف.

كما أن شعبية مجموعة بيانات Open Images V7 في مجال الأبحاث توفر الكثير من الموارد والأمثلة للمستخدمين للتعلم منها. ومع ذلك، فإن حجمها الضخم يمكن أن يجعل تنزيلها ومعالجتها يستغرق وقتًا طويلاً، خاصة بالنسبة للفرق الصغيرة. هناك مشكلة أخرى تتمثل في أن بعض التعليقات التوضيحية قد تكون غير متسقة، مما يتطلب جهدًا إضافيًا لتنظيف البيانات، كما أن التكامل ليس دائمًا سلسًا، مما يعني أنه قد تكون هناك حاجة إلى إعداد إضافي. 

اختيار مجموعة البيانات المناسبة 

يعد اختيار مجموعة البيانات المناسبة جزءًا كبيرًا من إعداد مشروع الرؤية الحاسوبية الخاص بك للنجاح. يعتمد الاختيار الأفضل على مهمتك المحددة، حيث أن العثور على تطابق جيد يساعد نموذجك على تعلم المهارات الصحيحة. كما يجب أن تتكامل بسهولة مع أدواتك، بحيث يمكنك التركيز أكثر على بناء نموذجك وأقل على استكشاف الأخطاء وإصلاحها.

الشكل 4. عوامل اختيار مجموعة البيانات المناسبة. الصورة للمؤلف.

الوجبات الرئيسية

مجموعات البيانات عالية الجودة هي العمود الفقري لأي نموذج رؤية حاسوبية، مما يساعد الأنظمة على تعلم تفسير الصور بدقة. تُعد مجموعات البيانات المتنوعة والمشروحة بشكل جيد مهمة بشكل خاص، لأنها تمكّن النماذج من الأداء بشكل موثوق في سيناريوهات العالم الحقيقي وتقلل من الأخطاء الناجمة عن البيانات المحدودة أو ذات الجودة الرديئة.

يعمل Ultralytics على تبسيط عملية الوصول إلى مجموعات بيانات الرؤية الحاسوبية والعمل معها، مما يسهل العثور على البيانات المناسبة لمشروعك. يعد اختيار مجموعة البيانات المناسبة خطوة حاسمة في بناء نموذج عالي الأداء، مما يؤدي إلى نتائج أكثر دقة وتأثيراً.

انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن الذكاء الاصطناعي. اكتشف التطورات مثل الرؤية الحاسوبية للرعاية الصحية والذكاء الاصطناعي في السيارات ذاتية القيادة على صفحات الحلول الخاصة بنا. اطّلع على خيارات الترخيص لدينا واتخذ الخطوة الأولى نحو البدء في استخدام الرؤية الحاسوبية اليوم!

شعار الفيسبوكشعار تويترشعار LinkedInرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي