التعرف على الصور هو فرع مهم من فروع الذكاء الاصطناعي (AI) والرؤية الحاسوبية (CV) الذي يمكّن الآلات من تحديد وتفسير المعلومات المرئية من الصور أو مقاطع الفيديو. وهو يتجاوز مجرد رؤية البكسلات؛ فهو يتضمن فهم المحتوى، مثل الأشياء والأشخاص والمشاهد والأفعال المصورة داخل البيانات المرئية. وتشكل هذه التقنية الأساس لعدد لا يحصى من التطبيقات، مما يسمح للأنظمة "برؤية" العالم وفهمه بطريقة مشابهة للبشر.
كيف يعمل التعرف على الصور
يعتمد التعرف على الصور في جوهره بشكل كبير على التعلم الآلي (ML)، وخاصة خوارزميات التعلم العميق (DL). تُعد الشبكات العصبية التلافيفية (CNNs) مكونًا أساسيًا، وهي مصممة لتعلم التسلسلات الهرمية المكانية للسمات من الصور تلقائيًا وبشكل تكيّفي. عادةً ما تتضمن العملية تدريب نموذج على مجموعات بيانات ضخمة من الصور الموسومة، مثل مجموعة بيانات ImageNet، حيث يتم تمييز كل صورة بمعلومات حول محتواها. أثناء التدريب، يتعلم النموذج ربط أنماط وميزات بصرية محددة بتسميات أو فئات مختلفة. وبمجرد التدريب، يمكن للنموذج تحليل الصور الجديدة غير المرئية والتنبؤ بالأشياء أو المفاهيم الموجودة فيها.
الفروق من المصطلحات ذات الصلة
على الرغم من ارتباطه بمهام الرؤية الحاسوبية الأخرى، إلا أن التعرف على الصور له فروق دقيقة محددة:
- تصنيف الصور: غالبًا ما يتم استخدامه بالتبادل مع التعرف على الصور، ويركز التصنيف عادةً على تعيين تسمية أساسية واحدة لصورة بأكملها (على سبيل المثال، تحديد صورة على أنها تحتوي على "قطة" أو "كلب"). قد ينطوي التعرّف على الصور في بعض الأحيان على فهم أوسع، مثل تحديد كائنات أو إجراءات متعددة داخل المشهد. يمكن لنماذج Ultralytics YOLO مثل YOLOv11، تنفيذ مهام تصنيف الصور.
- اكتشاف الأجسام: تذهب هذه المهمة إلى ما هو أبعد من مجرد التعرف البسيط من خلال تحديد الأجسام الموجودة في الصورة فحسب، بل أيضًا تحديد مكان وجودها، وعادةً ما يتم ذلك من خلال رسم مربعات محددة حولها.
- تجزئة الصور: يوفر فهماً أكثر تفصيلاً من خلال تصنيف كل بكسل في الصورة لتحديد المخطط أو الشكل الدقيق للأشياء، والتمييز بين الحالات المختلفة(تجزئة المثيل) أو الفئات المختلفة(تجزئة دلالية).
التطبيقات الواقعية
يعمل التعرف على الصور على تشغيل مجموعة واسعة من التطبيقات في مختلف الصناعات:
- الرعاية الصحية: يُستخدم في تحليل الصور الطبية لمساعدة أخصائيي الأشعة على اكتشاف الحالات الشاذة مثل الأورام أو الكسور في الأشعة السينية والتصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي، مما قد يؤدي إلى تشخيصات مبكرة. على سبيل المثال، يمكن تدريب النماذج على مهام مثل اكتشاف الأورام في التصوير الطبي.
- البيع بالتجزئة: يتيح تطبيقات مثل أنظمة الدفع الآلي التي تحدد المنتجات بدون رموز شريطية، ويعزز إدارة مخزون التجزئة من خلال مراقبة مستويات المخزون، ويحلل سلوك العملاء في المتاجر.
- الأمن والمراقبة: يعمل على تشغيل أنظمة التعرف على الوجه للتحقق من الهوية والتحكم في الوصول، ويكشف عن الاختراقات أو الأنشطة غير العادية في لقطات الفيديو، ويساهم في أنظمة مثل الرؤية الحاسوبية لمنع السرقة.
- المركبات ذاتية القيادة: ضروري للذكاء الاصطناعي في السيارات ذاتية القيادة للتعرف على المشاة والمركبات الأخرى وإشارات المرور وعلامات الطرق، مما يتيح التنقل الآمن.
- اعتدال المحتوى: تستخدم منصات التواصل الاجتماعي والخدمات عبر الإنترنت التعرف على الصور لاكتشاف المحتوى غير اللائق أو الضار وتصفيته تلقائياً، مثل الصور المزيفة أو الصور التي تنتهك السياسات، مسترشدةً بمبادئ أخلاقيات الذكاء الاصطناعي.
الأدوات والتقنيات
غالبًا ما يتضمن تطوير أنظمة التعرف على الصور استخدام أدوات وأطر عمل متخصصة. توفر مكتبات مثل OpenCV وظائف معالجة الصور الأساسية، بينما توفر أطر عمل التعلم العميق مثل PyTorch و TensorFlow اللبنات الأساسية لإنشاء نماذج الشبكات العصبية المعقدة وتدريبها. تعمل المنصات مثل Ultralytics HUB على تبسيط عملية تدريب نماذج الرؤية الحاسوبية ونشرها وإدارتها، بما في ذلك النماذج المستخدمة في مهام التعرف والتصنيف.