الرؤية الحاسوبية (CV) هو مجال متخصص ضمن الذكاء الاصطناعي (AI) يمكّن الحواسيب والأنظمة من استخلاص معلومات ذات مغزى من الصور الرقمية ومقاطع الفيديو والمدخلات المرئية الأخرى. يهدف بشكل أساسي إلى محاكاة الفهم البصري البشري، مما يسمح للآلات "بالرؤية" والتفسير واتخاذ القرارات بناءً على البيانات المرئية. ويتضمن ذلك معالجة المعلومات المرئية باستخدام خوارزميات معقدة ونماذج التعلم العميق (DL) للتعرف على الأشياء وفهم المشاهد واستخراج رؤى عالية المستوى. وعلى عكس معالجة الصور البسيطة، التي تركز في المقام الأول على تحسين بيانات الصورة أو معالجتها (مثل ضبط السطوع أو تطبيق المرشحات)، تسعى الرؤية الحاسوبية إلى فهم المحتوى والسياق داخل المرئيات.
الأهمية في الذكاء الاصطناعي والتعلم الآلي
تُعد الرؤية الحاسوبية أساسية للعديد من أنظمة الذكاء الاصطناعي والتعلم الآلي الحديثة، حيث توفر القدرات اللازمة للآلات للتفاعل مع العالم المادي وفهمه من خلال الإدراك البصري. وقد أحدث ظهور تقنيات مثل الشبكات العصبية التلافيفية (CNNs)، المستوحاة من القشرة البصرية البشرية، ثورة في مجال السيرة الذاتية. تسمح هذه الشبكات للنماذج بتعلم السمات الهرمية تلقائيًا من كميات هائلة من البيانات المرئية، مما يؤدي إلى تحسينات كبيرة في الدقة لمختلف مهام الرؤية الحاسوبية. يتيح هذا التقدم تطبيقات معقدة لم يكن من الممكن تحقيقها في السابق، مما يجعل السيرة الذاتية حجر الزاوية في تطوير الذكاء الاصطناعي الحالي ومحركاً رئيسياً لحالات استخدام الذكاء الاصطناعي التي ستغير مستقبلنا.
المفاهيم والمهام الرئيسية
تشمل الرؤية الحاسوبية مجموعة واسعة من المهام التي تهدف إلى استخراج أنواع مختلفة من المعلومات من البيانات المرئية. وتشمل بعض المهام الأساسية ما يلي:
- تصنيف الصور: تعيين تسمية أو فئة واحدة لصورة كاملة (على سبيل المثال، تحديد صورة على أنها تحتوي على "قطة" أو "كلب"). تُستخدم مجموعات البيانات مثل ImageNet بشكل شائع لهذه المهمة.
- اكتشاف الأجسام: تحديد وجود وموقع العديد من الكائنات داخل الصورة، عادةً عن طريق رسم مربعات محددة حولها وتعيين تسميات الفئات (على سبيل المثال، تحديد موقع جميع "السيارات" و "المشاة" في مشهد الشارع). نماذج مثل Ultralytics YOLO على نطاق واسع للكشف الفعال عن الأجسام.
- تجزئة الصور: تصنيف كل بكسل في الصورة لينتمي إلى كائن أو منطقة معينة. يوفر هذا فهماً أكثر تفصيلاً من اكتشاف الكائن. تشمل أنواعه التجزئة الدلالية (تصنيف وحدات البكسل حسب الفئة) وتجزئة المثيل (التفريق بين مثيلات الكائنات الفردية ضمن نفس الفئة). راجع دليلاً حول تجزئة المثيل والتتبع.
- تقدير الوضعية: الكشف عن موضع واتجاه النقاط الرئيسية لجسم ما، وغالبًا ما يُستخدم لتقدير الوضعية البشرية (تحديد المفاصل) أو تتبع الأجسام الجامدة. تعرف على التدريب المخصص لتقدير وضعية الكلب.
- تتبع الكائنات: تحديد وتتبع كائنات محددة عبر إطارات متعددة في تسلسل فيديو. يجمع هذا بين اكتشاف الكائنات والتحليل الزمني. استكشف اكتشاف الكائنات وتتبعها باستخدام Ultralytics YOLOv8.
- التدفق البصري: تقدير حركة الأجسام أو الكاميرا بين الإطارات المتتالية في الفيديو.
الرؤية الحاسوبية مقابل المجالات ذات الصلة
من المفيد التمييز بين الرؤية الحاسوبية والتخصصات ذات الصلة:
- معالجة الصور: يركز على معالجة الصور على مستوى أدنى، غالبًا كخطوة معالجة مسبقة للسيرة الذاتية. تشمل المهام تقليل الضوضاء وتحسين التباين والتصفية باستخدام مكتبات مثل OpenCV. تقوم معالجة الصور بتعديل وحدات البكسل ولكنها لا تفسر بالضرورة محتوى الصورة. اقرأ المزيد عن الاختلافات الرئيسية بين الرؤية الحاسوبية ومعالجة الصور.
- الرؤية الآلية (MV): بينما تتداخل الرؤية الآلية مع السيرة الذاتية، تشير الرؤية الآلية عادةً إلى تطبيق تقنية الرؤية في البيئات الصناعية للفحص الآلي والتحكم في العمليات وتوجيه الروبوت. تعمل أنظمة الرؤية الآلية (MV) غالبًا في بيئات خاضعة للرقابة مع إعدادات إضاءة وكاميرات محددة، مع التركيز على الموثوقية والسرعة في مهام محددة مثل فحص الجودة في التصنيع. المزيد عن الرؤية الآلية.
التقنيات وأطر العمل
يعتمد تطوير تطبيقات الرؤية الحاسوبية على أدوات ومكتبات وأطر عمل مختلفة:
التطبيقات الواقعية
تنتشر تطبيقات الرؤية الحاسوبية بشكل متزايد في مختلف القطاعات: