اكتشف قوة اكتشاف الأجسام - تعرف على الأجسام في الصور أو مقاطع الفيديو وحدد موقعها باستخدام نماذج متطورة مثل YOLO. استكشف تطبيقات العالم الحقيقي!
يُعدّ اكتشاف الكائنات مهمة أساسية في مجال الرؤية الحاسوبية (CV) تتضمن تحديد وجود كائن أو أكثر وموقعه ونوعه داخل صورة أو فيديو. على عكس تصنيف الصور، الذي يعيّن تسمية واحدة للصورة بأكملها (على سبيل المثال، "قطة")، فإن اكتشاف الكائنات يحدد بدقة كل مثيل للكائن باستخدام مربع محدد ويضع له تسمية فئة (على سبيل المثال، "قطة" عند الإحداثيات س، ص، عرض، ارتفاع). تسمح هذه الإمكانية للآلات بفهم المشاهد المرئية بمزيد من التفصيل، مما يحاكي الإدراك البصري البشري بشكل أقرب ويتيح تفاعلات أكثر تعقيدًا مع البيئة. إنها تقنية أساسية وراء العديد من تطبيقات الذكاء الاصطناعي الحديثة.
عادةً ما يجمع اكتشاف الكائنات بين مهمتين أساسيتين: تصنيف الكائنات (تحديد "ما" الكائن الموجود) وتحديد موقع الكائن (تحديد "مكان" وجود الكائن، عادةً عن طريق إحداثيات الصندوق المحيط). تعتمد الأنظمة الحديثة للكشف عن الأجسام اعتمادًا كبيرًا على التعلّم العميق (DL)، وخاصةً الشبكات العصبية التلافيفية (CNNs). يتم تدريب هذه الشبكات على مجموعات بيانات كبيرة ومشروحة، مثل مجموعة بيانات COCO الشهيرة أو Open Images V7، لتعلم السمات والأنماط المرئية المرتبطة بفئات الكائنات المختلفة.
أثناء العملية (المعروفة باسم الاستدلال)، يعالج النموذج المُدرّب صورة مُدخَلة أو إطار فيديو. يقوم بإخراج قائمة بالأجسام المحتملة، حيث يتم تمثيل كل منها بصندوق محدّد، وتسمية الفئة المتوقعة (على سبيل المثال، "سيارة"، "شخص"، "كلب")، ودرجة ثقة تشير إلى يقين النموذج بشأن الاكتشاف. وغالباً ما تُستخدم تقنيات مثل القمع غير الأقصى (NMS) لتحسين هذه المخرجات عن طريق إزالة المربعات الزائدة والمتداخلة لنفس الكائن. وعادةً ما يتم تقييم أداء هذه النماذج باستخدام مقاييس مثل التقاطع على الاتحاد (IoU) ومتوسط متوسط الدقة (mAP).
من المهم التمييز بين اكتشاف الأجسام ومهام الرؤية الحاسوبية الأخرى ذات الصلة:
تنقسم نماذج اكتشاف الأجسام بشكل عام إلى فئتين رئيسيتين، تختلفان في المقام الأول في نهجها ومقايضات السرعة/الدقة:
يُعد اكتشاف الأجسام تقنية أساسية تتيح العديد من التطبيقات في مختلف الصناعات:
يتضمن تطوير نماذج اكتشاف الكائنات ونشرها أدوات وتقنيات مختلفة. أطر التعلم العميق الشائعة مثل PyTorch و TensorFlow المكتبات التأسيسية. توفر مكتبات الرؤية الحاسوبية مثل OpenCV وظائف معالجة الصور الأساسية.
توفر شركة Ultralytics أحدث ما توصلت إليه Ultralytics YOLO بما في ذلك YOLOv8 و YOLO11المُحسّنة للسرعة والدقة. تعمل منصة Ultralytics HUB على تبسيط سير العمل بشكل أكبر، حيث توفر أدوات لإدارة مجموعات البيانات، وتدريب النماذج المخصصة، وإجراء ضبط المعلمات الفائقة، وتسهيل نشر النماذج. وغالبًا ما يستفيد التدريب الفعال للنماذج من استراتيجيات وتقنيات زيادة البيانات مثل نقل التعلّم باستخدام أوزان مُدرّبة مسبقًا من مجموعات بيانات مثل ImageNet.