الشيك الأخضر
تم نسخ الرابط إلى الحافظة

تاريخ نماذج الرؤية

استكشف تاريخ نماذج الرؤية وإنجازاتها وتحدياتها وتوجهاتها المستقبلية.

ما هي الرؤية الحاسوبية

تخيل أنك تدخل متجراً حيث تتعرف الكاميرا على وجهك وتحلل حالتك المزاجية وتقترح عليك منتجات مصممة خصيصاً لتناسب تفضيلاتك - كل ذلك في الوقت الفعلي. هذا ليس خيالاً علمياً بل هو حقيقة واقعة تم تمكينها بواسطة نماذج الرؤية الحديثة. وفقًا لتقرير صادر عن Fortune Business Insight، بلغت قيمة سوق الرؤية الحاسوبية العالمية 20.31 مليار دولار أمريكي في عام 2023، ومن المتوقع أن ينمو من 25.41 مليار دولار أمريكي في عام 2024 إلى 175.72 مليار دولار أمريكي بحلول عام 2032، مما يعكس التقدم السريع والاعتماد المتزايد لهذه التكنولوجيا في مختلف الصناعات.

يمكّن مجال الرؤية الحاسوبية أجهزة الكمبيوتر من اكتشاف وتحديد وتحليل الأجسام داخل الصور. وعلى غرار المجالات الأخرى ذات الصلة بالذكاء الاصطناعي، شهدت الرؤية الحاسوبية تطوراً سريعاً على مدى العقود القليلة الماضية، محققةً تقدماً ملحوظاً. 

تاريخ الرؤية الحاسوبية واسع النطاق. في سنواتها الأولى، كانت نماذج الرؤية الحاسوبية قادرة على اكتشاف الأشكال والحواف البسيطة، وغالباً ما كانت تقتصر على المهام الأساسية مثل التعرف على الأنماط الهندسية أو التمييز بين المناطق الفاتحة والمظلمة. ومع ذلك، يمكن لنماذج اليوم أداء مهام معقدة مثل الكشف عن الأجسام في الوقت الحقيقي، والتعرف على الوجه، وحتى تفسير المشاعر من تعابير الوجه بدقة وكفاءة استثنائية. يسلط هذا التقدم الهائل الضوء على الخطوات المذهلة التي تحققت في القوة الحاسوبية والتطور الخوارزمي وتوافر كميات هائلة من البيانات للتدريب.

سنستكشف في هذه المقالة المعالم الرئيسية في تطور الرؤية الحاسوبية. سنقوم برحلة عبر بداياته الأولى، وسنتعمق في التأثير التحويلي للشبكات العصبية التلافيفية (CNNs)، وسنتناول التطورات المهمة التي تلت ذلك.

البدايات الأولى للرؤية الحاسوبية

كما هو الحال مع مجالات الذكاء الاصطناعي الأخرى، بدأ التطور المبكر للرؤية الحاسوبية بأبحاث تأسيسية وأعمال نظرية. كان العمل الرائد الذي قام به لورانس جي روبرتس في مجال التعرف على الأجسام ثلاثية الأبعاد، والموثق في أطروحته"الإدراك الآلي للمجسمات ثلاثية الأبعاد" في أوائل الستينيات من القرن الماضي من أهم معالم هذا المجال. وقد أرست مساهماته الأساس للتطورات المستقبلية في هذا المجال.

الخوارزميات الأولى - كشف الحواف

ركزت أبحاث الرؤية الحاسوبية المبكرة على تقنيات معالجة الصور، مثل اكتشاف الحواف واستخراج الملامح. كانت الخوارزميات مثل مشغل Sobel، الذي تم تطويره في أواخر الستينيات، من بين أوائل الخوارزميات التي اكتشفت الحواف عن طريق حساب تدرج شدة الصورة.

الشكل 1. صورة توضح اكتشاف الحافة، حيث يُظهر الجانب الأيسر الكائن الأصلي ويعرض الجانب الأيمن النسخة المكتشفة الحواف.

لعبت تقنيات مثل كاشفات الحواف Sobel و Canny دورًا حاسمًا في تحديد الحدود داخل الصور، وهي تقنيات ضرورية للتعرف على الأجسام وفهم المشاهد.

التعلم الآلي والرؤية الحاسوبية

التعرف على الأنماط

في السبعينيات، ظهر التعرف على الأنماط كمجال رئيسي للرؤية الحاسوبية. وطور الباحثون طرقًا للتعرف على الأشكال والأنسجة والأشياء في الصور، مما مهد الطريق لمهام رؤية أكثر تعقيدًا.

الشكل 2. التعرّف على الأنماط.

تضمنت إحدى الطرق المبكرة للتعرف على الأنماط مطابقة القوالب، حيث تتم مقارنة الصورة بمجموعة من القوالب للعثور على أفضل تطابق. كان هذا النهج محدوداً بسبب حساسيته للتغيرات في المقياس والدوران والضوضاء.

الشكل 3. قالب على الجانب الأيسر موجود داخل الصورة اليمنى.

كانت أنظمة الرؤية الحاسوبية المبكرة مقيدة بالقدرة الحاسوبية المحدودة في ذلك الوقت. كانت أجهزة الكمبيوتر في الستينيات والسبعينيات من القرن الماضي ضخمة ومكلفة وذات قدرات معالجة محدودة.

تغيير اللعبة باستخدام التعلُّم العميق

التعلّم العميق والشبكات العصبية التلافيفية

يمثل التعلم العميق والشبكات العصبية التلافيفية (CNNs) لحظة محورية في مجال الرؤية الحاسوبية. فقد أحدثت هذه التطورات تحولاً جذرياً في كيفية تفسير الحواسيب للبيانات المرئية وتحليلها، مما أتاح مجموعة واسعة من التطبيقات التي كان يُعتقد سابقاً أنها مستحيلة.

كيف تعمل الـ CNNs؟

الشكل 4. بنية الشبكة العصبية التلافيفية (CNN).

  1. الطبقات التلافيفية: تستخدم CNNs الطبقات التلافيفية وهي نوع من نماذج التعلّم العميق المصممة لمعالجة البيانات الشبيهة بالشبكة المهيكلة، مثل الصور أو التسلسلات، من خلال التعلم التلقائي للأنماط الهرمية لمسح الصورة باستخدام مرشحات أو نواة. تكتشف هذه المرشحات ميزات مختلفة مثل الحواف والأنسجة والألوان من خلال الانزلاق عبر الصورة وحساب حاصل الضرب النقطي. ينشّط كل مرشح أنماطًا محددة في الصورة، مما يمكّن النموذج من تعلّم السمات الهرمية.
  2. وظائف التنشيط: بعد التلافيف، يتم استخدام دوال التنشيط مثل ReLU (الوحدة الخطية المعدلة) وهي دالة تنشيط شائعة في التعلم العميق، حيث تقوم بإخراج المدخلات مباشرةً إذا كانت موجبة وصفرًا إذا كانت غير ذلك، مما يساعد الشبكات العصبية على تعلم العلاقات غير الخطية في البيانات بكفاءة. وهذا يساعد الشبكة على تعلم الأنماط والتمثيلات المعقدة.
  3. طبقات التجميع: توفّر طبقات التجميع عملية تصغير لأخذ العينات التي تقلل من أبعاد خريطة الميزات، مما يساعد على استخراج الميزات الأكثر صلة مع تقليل التكلفة الحسابية والإفراط في التهيئة.
  4. الطبقات المتصلة بالكامل: الطبقات النهائية لشبكة CNN هي الطبقات المتصلة بالكامل التي تفسر الميزات المستخرجة من الطبقات التلافيفية والتجميعية لعمل تنبؤات. تشبه هذه الطبقات تلك الموجودة في الشبكات العصبية التقليدية.

‍تطورنماذج رؤية CNN

‍كانترحلة نماذج الرؤية واسعة النطاق، حيث تضم بعضًا من أبرز هذه النماذج:

  • LeNet (1989): كانت شبكة LeNet واحدة من أقدم بنيات الشبكات الشبكية المتكاملة (CNN)، واستخدمت في المقام الأول للتعرف على الأرقام في الشيكات المكتوبة بخط اليد. وقد أرسى نجاحها الأساس لشبكات سي إن إن إن الأكثر تعقيدًا، وأثبتت إمكانات التعلم العميق في معالجة الصور.
  • AlexNet (2012): تفوقت AlexNet بشكل كبير على النماذج الحالية في مسابقة ImageNet، مما أظهر قوة التعلم العميق. استخدم هذا النموذج عمليات تنشيط ReLU، والتسرب، وزيادة البيانات، ووضع معايير جديدة في تصنيف الصور وأثار اهتمامًا واسعًا بنماذج الشبكات الشبكية ذات الشبكات المتكاملة.
  • شبكة VGGNet (2014): باستخدام مرشحات التفافية أصغر (3 × 3)، حققت شبكة VGGNet نتائج مبهرة في مهام تصنيف الصور، مما يعزز أهمية عمق الشبكة في تحقيق دقة أعلى.
  • ResNet (2015): عالجت ResNet مشكلة التدهور في الشبكات العميقة من خلال إدخال التعلم المتبقي. وقد سمح هذا الابتكار بتدريب شبكات أعمق بكثير، مما أدى إلى تحقيق أداء متطور في مختلف مهام الرؤية الحاسوبية.
  • YOLO (أنت تنظر مرة واحدة فقط): أحدثت YOLO ثورة في اكتشاف الأج سام من خلال تأطيرها كمشكلة انحدار واحدة، والتنبؤ مباشرةً بالمربعات المحدودة واحتمالات الفئة من الصور الكاملة في تقييم واحد. وقد مكّن هذا النهج من اكتشاف الأجسام في الوقت الحقيقي بسرعة ودقة غير مسبوقة، مما يجعله مناسبًا للتطبيقات التي تتطلب معالجة فورية، مثل القيادة الذاتية والمراقبة.

‍تطبيقات الرؤية بالكمبيوتر

الصحيه

‍تتعدداستخدامات الرؤية الحاسوبية. على سبيل المثال، تُستخدم نماذج الرؤية مثل Ultralytics YOLOv8 في التصوير الطبي للكشف عن أمراض مثل السرطان واعتلال الشبكية السكري. فهي تقوم بتحليل الأشعة السينية والتصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب بدقة عالية، وتحدد التشوهات في وقت مبكر. تسمح هذه القدرة على الكشف المبكر بالتدخلات في الوقت المناسب وتحسين نتائج المرضى.

الشكل 5. الكشف عن أورام الدماغ باستخدام Ultralytics YOLOv8.

الحفاظ على البيئة

تساعد نماذج الرؤية الحاسوبية في مراقبة وحماية الأنواع المهددة بالانقراض من خلال تحليل الصور ومقاطع الفيديو من موائل الحياة البرية. فهي تحدد وتتبع سلوك الحيوانات، وتوفر بيانات عن أعدادها وتحركاتها. وتفيد هذه التكنولوجيا في استراتيجيات الحفظ وقرارات السياسة العامة لحماية أنواع مثل النمور والفيلة.

بمساعدة الذكاء الاصطناعي للرؤية، يمكن رصد التهديدات البيئية الأخرى مثل حرائق الغابات وإزالة الغابات، مما يضمن سرعة استجابة السلطات المحلية.

الشكل 6. صورة التقطتها الأقمار الصناعية لحريق هائل.

التحديات والتوجهات المستقبلية

وعلى الرغم من أن هذه النماذج قد حققت بالفعل إنجازات مهمة، إلا أن نماذج الرؤية تواجه العديد من التحديات التي تتطلب أبحاثًا مستمرة وتطورات مستقبلية بسبب تعقيدها الشديد وطبيعة تطويرها الصعبة.

قابلية التفسير والشرح

غالباً ما يُنظر إلى نماذج الرؤية، وخاصة نماذج التعلم العميق، على أنها "صناديق سوداء" ذات شفافية محدودة. ويرجع ذلك إلى كون هذه النماذج معقدة للغاية. يعيق عدم قابلية التفسير الثقة والمساءلة، خاصةً في التطبيقات الهامة مثل الرعاية الصحية على سبيل المثال.

المتطلبات الحسابية

يتطلب تدريب ونشر أحدث نماذج الذكاء الاصطناعي موارد حاسوبية كبيرة. وهذا ينطبق بشكل خاص على نماذج الرؤية، والتي غالباً ما تتطلب معالجة كميات كبيرة من بيانات الصور والفيديو. تُعد الصور ومقاطع الفيديو عالية الوضوح من بين أكثر مدخلات التدريب كثافة في البيانات، مما يزيد من العبء الحسابي. على سبيل المثال، يمكن لصورة واحدة عالية الوضوح أن تشغل عدة ميغابايت من مساحة التخزين، مما يجعل عملية التدريب كثيفة الموارد وتستغرق وقتاً طويلاً. ويتطلب ذلك أجهزة قوية وخوارزميات رؤية حاسوبية محسّنة للتعامل مع البيانات المكثفة والعمليات الحسابية المعقدة التي ينطوي عليها تطوير نماذج رؤية فعالة. تُعد الأبحاث حول البنى الأكثر كفاءة وضغط النماذج ومسرعات الأجهزة مثل وحدات معالجة الرسومات ووحدات المعالجة الحرارية من المجالات الرئيسية التي ستعمل على تطوير مستقبل نماذج الرؤية. تهدف هذه التحسينات إلى تقليل المتطلبات الحسابية وزيادة كفاءة المعالجة. علاوة على ذلك، فإن الاستفادة من النماذج المتقدمة المدربة مسبقًا مثل YOLOv8 يمكن أن يقلل إلى حد كبير من الحاجة إلى التدريب المكثف، مما يؤدي إلى تبسيط عملية التطوير وتعزيز الكفاءة.

مشهد دائم التطور

في الوقت الحاضر، تنتشر تطبيقات نماذج الرؤية على نطاق واسع، بدءًا من الرعاية الصحية، مثل الكشف عن الأورام، إلى الاستخدامات اليومية مثل مراقبة حركة المرور. وقد جلبت هذه النماذج المتقدمة الابتكار إلى عدد لا يحصى من الصناعات من خلال توفير دقة وكفاءة وقدرات محسّنة لم يكن من الممكن تصورها في السابق. ومع استمرار تقدم التكنولوجيا، تظل إمكانات نماذج الرؤية في الابتكار وتحسين مختلف جوانب الحياة والصناعة لا حدود لها. يؤكد هذا التطور المستمر على أهمية استمرار البحث والتطوير في مجال الرؤية الحاسوبية.

هل لديك فضول حول مستقبل الذكاء الاصطناعي البصري؟ لمزيد من المعلومات حول أحدث التطورات، استكشف مستنداتUltralytics ، وتحقق من مشاريعها على Ultralytics GitHub و YOLOv8 GitHub. بالإضافة إلى ذلك، وللحصول على رؤى حول تطبيقات الذكاء الاصطناعي في مختلف الصناعات، تقدم صفحات الحلول الخاصة بالسيارات ذاتية القيادة والتصنيع معلومات مفيدة بشكل خاص.

شعار الفيسبوكشعار تويترشعار لينكد إنرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي