مسرد المصطلحات

التعرف على الصور

اكتشف كيف يُمكِّن الذكاء الاصطناعي الذكاء الاصطناعي من تصنيف المرئيات وفهمها، مما يؤدي إلى الابتكار في مجالات الرعاية الصحية وتجارة التجزئة والأمن وغيرها.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

التعرف على الصور هو فرع مهم من فروع الذكاء الاصطناعي (AI) والرؤية الحاسوبية (CV) الذي يمكّن الآلات من تحديد وتفسير المعلومات المرئية من الصور أو مقاطع الفيديو. وهو يتجاوز مجرد رؤية البكسلات؛ فهو يتضمن فهم المحتوى، مثل الأشياء والأشخاص والمشاهد والأفعال المصورة داخل البيانات المرئية. وتشكل هذه التقنية الأساس لعدد لا يحصى من التطبيقات، مما يسمح للأنظمة "برؤية" العالم وفهمه بطريقة مشابهة للبشر.

كيف يعمل التعرف على الصور

يعتمد التعرف على الصور في جوهره بشكل كبير على التعلم الآلي (ML)، وخاصة خوارزميات التعلم العميق (DL). تُعد الشبكات العصبية التلافيفية (CNNs) مكونًا أساسيًا، وهي مصممة لتعلم التسلسلات الهرمية المكانية للسمات من الصور تلقائيًا وبشكل تكيّفي. عادةً ما تتضمن العملية تدريب نموذج على مجموعات بيانات ضخمة من الصور الموسومة، مثل مجموعة بيانات ImageNet الشهيرة، حيث يتم تمييز كل صورة بمعلومات حول محتواها، وغالبًا ما يتم تنظيمها باستخدام هياكل مثل التسلسل الهرمي ل WordNet. أثناء التدريب، يتعلم النموذج ربط أنماط وميزات بصرية محددة (مثل الحواف والأنسجة والأشكال) بتسميات أو فئات مختلفة. تتمتع البنى مثل ResNet بأداء متقدم بشكل كبير في هذه المهام. وبمجرد التدريب، يمكن للنموذج تحليل الصور الجديدة غير المرئية والتنبؤ بالأشياء أو المفاهيم الموجودة فيها. يمكن تعميق فهم هذه المفاهيم من خلال موارد مثل تخصص التعلم العميق. بينما تُعد ImageNet أساسية للتصنيف، إلا أن مجموعات البيانات مثل COCO ضرورية أيضًا لمهام الفهم البصري الأوسع نطاقًا. يتطلب التدريب الفعال للنماذج تخطيطاً وتنفيذاً دقيقاً.

الفروق من المصطلحات ذات الصلة

على الرغم من ارتباطه بمهام الرؤية الحاسوبية الأخرى، إلا أن التعرف على الصور غالبًا ما يُستخدم كمصطلح أوسع نطاقًا يشمل العديد من القدرات المحددة. من المهم تمييزها عن المهام الأضيق نطاقاً:

  • تصنيف الصور: تقوم هذه المهمة بتعيين تسمية واحدة لصورة كاملة (على سبيل المثال، "قطة"، "سيارة"، "منظر طبيعي"). وهي تحدد الموضوع الرئيسي ولكنها لا تحدد موقعه. يمكن لنماذج Ultralytics تنفيذ مهام تصنيف الصور.
  • اكتشاف الكائنات: يذهب هذا الأمر إلى أبعد من ذلك من خلال تحديد كائنات متعددة داخل الصورة وتحديد موقع كل كائن منها، عادةً عن طريق رسم مربع محدّد حوله وتعيين تسمية فئة (على سبيل المثال، "شخص عند الإحداثيات (س1، ص1، س2، ص2)"). استكشاف الكشف باستخدام نماذج Ultralytics .
  • تجزئة الصور: يتضمن ذلك تصنيف كل بكسل في صورة.
    • التقسيم الدلالي: يعيّن تسمية فئة لكل بكسل (على سبيل المثال، جميع البكسلات التي تنتمي إلى السيارات يتم تصنيفها "سيارة").
    • تجزئة المثيل: التفريق بين المثيلات الفردية لفئة الكائن نفسها (على سبيل المثال، تسمية "سيارة 1" و"سيارة 2"). يدعم Ultralytics مهام التجزئة المختلفة.

قد يشير التعرّف على الصور في بعض الأحيان إلى تصنيف الصور على وجه التحديد، ولكنه غالبًا ما ينطوي على القدرة الأوسع لفهم محتوى الصورة، والتي قد تتضمن الكشف أو التجزئة اعتمادًا على احتياجات التطبيق.

التطبيقات الواقعية

يعمل التعرف على الصور على تشغيل مجموعة واسعة من التطبيقات في مختلف الصناعات:

يتطور هذا المجال باستمرار، مدفوعًا بالأبحاث التي تتم مشاركتها في أماكن مثل مؤتمر الرؤية الحاسوبية والتعرف على الأنماط (CVPR) ومنظمات مثل مؤسسة الرؤية الحاسوبية (CVF). اقرأ الرؤى العملية على مدونةGoogle Cloud AI Blog.

الأدوات والتدريب

غالبًا ما يتضمن تطوير تطبيقات التعرف على الصور استخدام مكتبات وأطر عمل متخصصة. وتشمل التقنيات الرئيسية ما يلي:

قراءة الكل