اكتشف كيف يُمكِّن الذكاء الاصطناعي الذكاء الاصطناعي من تصنيف المرئيات وفهمها، مما يؤدي إلى الابتكار في مجالات الرعاية الصحية وتجارة التجزئة والأمن وغيرها.
التعرف على الصور هو فرع مهم من فروع الذكاء الاصطناعي (AI) والرؤية الحاسوبية (CV) الذي يمكّن الآلات من تحديد وتفسير المعلومات المرئية من الصور أو مقاطع الفيديو. وهو يتجاوز مجرد رؤية البكسلات؛ فهو يتضمن فهم المحتوى، مثل الأشياء والأشخاص والمشاهد والأفعال المصورة داخل البيانات المرئية. وتشكل هذه التقنية الأساس لعدد لا يحصى من التطبيقات، مما يسمح للأنظمة "برؤية" العالم وفهمه بطريقة مشابهة للبشر.
يعتمد التعرف على الصور في جوهره بشكل كبير على التعلم الآلي (ML)، وخاصة خوارزميات التعلم العميق (DL). تُعد الشبكات العصبية التلافيفية (CNNs) مكونًا أساسيًا، وهي مصممة لتعلم التسلسلات الهرمية المكانية للسمات من الصور تلقائيًا وبشكل تكيّفي. عادةً ما تتضمن العملية تدريب نموذج على مجموعات بيانات ضخمة من الصور الموسومة، مثل مجموعة بيانات ImageNet الشهيرة، حيث يتم تمييز كل صورة بمعلومات حول محتواها، وغالبًا ما يتم تنظيمها باستخدام هياكل مثل التسلسل الهرمي ل WordNet. أثناء التدريب، يتعلم النموذج ربط أنماط وميزات بصرية محددة (مثل الحواف والأنسجة والأشكال) بتسميات أو فئات مختلفة. تتمتع البنى مثل ResNet بأداء متقدم بشكل كبير في هذه المهام. وبمجرد التدريب، يمكن للنموذج تحليل الصور الجديدة غير المرئية والتنبؤ بالأشياء أو المفاهيم الموجودة فيها. يمكن تعميق فهم هذه المفاهيم من خلال موارد مثل تخصص التعلم العميق. بينما تُعد ImageNet أساسية للتصنيف، إلا أن مجموعات البيانات مثل COCO ضرورية أيضًا لمهام الفهم البصري الأوسع نطاقًا. يتطلب التدريب الفعال للنماذج تخطيطاً وتنفيذاً دقيقاً.
على الرغم من ارتباطه بمهام الرؤية الحاسوبية الأخرى، إلا أن التعرف على الصور غالبًا ما يُستخدم كمصطلح أوسع نطاقًا يشمل العديد من القدرات المحددة. من المهم تمييزها عن المهام الأضيق نطاقاً:
قد يشير التعرّف على الصور في بعض الأحيان إلى تصنيف الصور على وجه التحديد، ولكنه غالبًا ما ينطوي على القدرة الأوسع لفهم محتوى الصورة، والتي قد تتضمن الكشف أو التجزئة اعتمادًا على احتياجات التطبيق.
يعمل التعرف على الصور على تشغيل مجموعة واسعة من التطبيقات في مختلف الصناعات:
يتطور هذا المجال باستمرار، مدفوعًا بالأبحاث التي تتم مشاركتها في أماكن مثل مؤتمر الرؤية الحاسوبية والتعرف على الأنماط (CVPR) ومنظمات مثل مؤسسة الرؤية الحاسوبية (CVF). اقرأ الرؤى العملية على مدونةGoogle Cloud AI Blog.
غالبًا ما يتضمن تطوير تطبيقات التعرف على الصور استخدام مكتبات وأطر عمل متخصصة. وتشمل التقنيات الرئيسية ما يلي: