شيك أخضر
تم نسخ الرابط إلى الحافظة

الذكاء الاصطناعي التوليدي يغير الطريق أمام الرؤية الحاسوبية

اكتشف رؤى مثيرة للاهتمام من جلسة نقاش في مؤتمر YOLO Vision 2024. اكتشف كيف يُشكّل الذكاء الاصطناعي التوليدي الطريق أمام نماذج الذكاء الاصطناعي في Vision في الوقت الفعلي.

الذكاء الاصطناعي التوليدي هو فرع من فروع الذكاء الاصطناعي (AI) الذي ينشئ محتوى جديدًا، مثل الصور أو النصوص أو الصوت، من خلال تعلم الأنماط من البيانات الموجودة. وبفضل التطورات الحديثة، يمكن استخدامه الآن لإنتاج محتوى واقعي للغاية يحاكي في كثير من الأحيان الإبداع البشري.

ومع ذلك، يتجاوز تأثير الذكاء الاصطناعي التوليدي مجرد إنشاء المحتوى. فمع استمرار تطور نماذج الرؤية الحاسوبية في الوقت الحقيقي مثل نماذجUltralytics YOLO يعيد الذكاء الاصطناعي التوليدي أيضاً تعريف كيفية معالجة البيانات المرئية وزيادتها، مما يمهد الطريق لتطبيقات مبتكرة في سيناريوهات العالم الحقيقي. 

كان هذا التحوّل التكنولوجي الجديد موضوعاً مثيراً للاهتمام للنقاش في مؤتمر YOLO Vision 2024 (YV24)، وهو حدث سنوي مختلط استضافته Ultralytics. شهد YV24 اجتماع عشاق الذكاء الاصطناعي وقادة الصناعة معاً لمناقشة أحدث الإنجازات في مجال الرؤية الحاسوبية. ركزت الفعالية على الابتكار والكفاءة ومستقبل حلول الذكاء الاصطناعي في الوقت الحقيقي.

كان من أبرز الأحداث الرئيسية للفعالية حلقة نقاشية حول YOLO في عصر الذكاء الاصطناعي التوليدي". شارك في الجلسة كل من جلين جوتشر، المؤسس والرئيس التنفيذي لشركة Ultralytics وجينغ تشيو، كبير مهندسي التعلم الآلي في Ultralytics وآو وانغ من جامعة تسينغهوا. استكشفوا كيف يؤثر الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية وتحديات بناء نماذج الذكاء الاصطناعي العملية.

في هذه المقالة، سنعيد النظر في الرؤى الرئيسية من مناقشتهم ونلقي نظرة فاحصة على كيفية تحويل الذكاء الاصطناعي التوليدي للذكاء الاصطناعي البصري.

تطوير نماذج Ultralytics YOLO

إلى جانب جلين جوتشر، لعب العديد من المهندسين المهرة دوراً حيوياً في تطوير نماذجYOLO الخاصة بشركة Ultralytics . وروى أحدهم، وهو جينغ تشيو، بدايته غير المتوقعة مع YOLO. وأوضح أن شغفه بالذكاء الاصطناعي بدأ خلال سنوات دراسته الجامعية. وقد أمضى وقتاً طويلاً في استكشاف هذا المجال والتعرف عليه. وأشار جينغ تشيو إلى كيفية تواصله مع جلين جوتشر على GitHub ومشاركته في العديد من مشاريع الذكاء الاصطناعي.

إضافةً إلى ما قاله جينغ تشيو، وصف جلين جوشيه GitHub بأنه "طريقة رائعة للمشاركة، حيث يجتمع أشخاص لم يسبق لك أن التقيت بهم لمساعدة بعضهم البعض، ويساهمون في عمل بعضهم البعض. إنه مجتمع رائع وطريقة رائعة حقاً للبدء في مجال الذكاء الاصطناعي."

الشكل 1. غلين جوشر وجينغ تشيو يتحدثان على المنصة في YV24.

اهتمام جينغ تشيو بالذكاء الاصطناعي وعمله على Ultralytics YOLOv5 ساعد في تحسين النموذج. وفي وقت لاحق، لعب دورًا رئيسيًا في تطوير Ultralytics YOLOv8الذي أدخل المزيد من التحسينات. ووصفها بأنها رحلة مذهلة. اليوم، يواصل جينغ تشيو التحسينات والعمل على نماذج مثل Ultralytics YOLO11

YOLOv10: مُحسَّن للأداء في العالم الحقيقي

انضم أو وانغ إلى حلقة النقاش عن بُعد من الصين، وقدّم نفسه على أنه طالب دكتوراه. في البداية، درس هندسة البرمجيات، لكن شغفه بالذكاء الاصطناعي قاده إلى التحول نحو الرؤية الحاسوبية والتعلم العميق.

كان أول لقاء له مع نموذج YOLO الشهير أثناء تجربة تقنيات ونماذج الذكاء الاصطناعي المختلفة. وقد أُعجب بسرعته ودقته، مما ألهمه للتعمق أكثر في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام. في الآونة الأخيرة، ساهم أو وانغ في YOLOv10، وهو إصدار حديث من نموذج YOLO . ركز بحثه على تحسين النموذج ليكون أسرع وأكثر دقة.

الفرق الرئيسي بين الذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري

بعد ذلك، بدأت الجلسة في مناقشة الذكاء الاصطناعي التوليدي، وأشار جينغ تشيو إلى أن الذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري لهما أغراض مختلفة تمامًا. حيث يقوم الذكاء الاصطناعي التوليدي بإنشاء أو توليد أشياء مثل النصوص والصور ومقاطع الفيديو، بينما يقوم الذكاء الاصطناعي البصري بتحليل ما هو موجود بالفعل، وخاصة الصور.

أوضح جلين جوشر أن الحجم يمثل فرقاً كبيراً أيضاً. فنماذج الذكاء الاصطناعي التوليدي ضخمة، وغالباً ما تحتوي على مليارات المعلمات - الإعدادات الداخلية التي تساعد النموذج على التعلم من البيانات. أما نماذج الرؤية الحاسوبية فهي أصغر بكثير. وقال: "أصغر نموذج YOLO لدينا أصغر بحوالي ألف مرة من أصغر نموذج LLM [نموذج اللغة الكبيرة]. أي 3 ملايين معلمة مقارنةً بثلاثة مليارات معلمة."

الشكل 3. حلقة النقاش حول الذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري في YV24.

وأضاف جينغ تشيو أن عمليات التدريب والنشر الخاصة بالذكاء الاصطناعي التوليدي والرؤية الحاسوبية مختلفة جداً أيضاً. فالذكاء الاصطناعي التوليدي يحتاج إلى خوادم ضخمة وقوية لتشغيله. أما النماذج مثل YOLO من ناحية أخرى، فهي مصممة لتحقيق الكفاءة ويمكن تدريبها ونشرها على أجهزة قياسية. وهذا يجعل نماذج Ultralytics YOLO أكثر عملية للاستخدام في العالم الحقيقي.

على الرغم من اختلافهما، فقد بدأ هذان المجالان يتداخلان مع بعضهما البعض. أوضح جلين يوتشر أن الذكاء الاصطناعي التوليدي يجلب تطورات جديدة في مجال الذكاء الاصطناعي البصري، مما يجعل النماذج أكثر ذكاءً وكفاءة. 

تأثير الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية

لقد تقدم الذكاء الاصطناعي التوليدي بسرعة، وتؤثر هذه الإنجازات على العديد من مجالات الذكاء الاصطناعي الأخرى، بما في ذلك الرؤية الحاسوبية. بعد ذلك، دعونا نستعرض بعض الرؤى الرائعة التي قدمتها الجلسة حول هذا الموضوع.

تعمل التطورات في الأجهزة على تمكين ابتكارات الذكاء الاصطناعي

في بداية الجلسة، أوضح جلين جوتشر أن أفكار التعلم الآلي كانت موجودة منذ فترة طويلة، لكن أجهزة الكمبيوتر لم تكن قوية بما يكفي لجعلها تعمل. احتاجت أفكار الذكاء الاصطناعي إلى أجهزة أقوى لجعلها حقيقة واقعة.

أدى ظهور وحدات معالجة الرسومات (وحدات معالجة الرسومات) على مدار العشرين عامًا الماضية مع قدرات المعالجة المتوازية إلى تغيير كل شيء. فقد جعلت نماذج الذكاء الاصطناعي التدريبية أسرع وأكثر كفاءة، مما سمح للتعلم العميق بالتطور بوتيرة سريعة.

في الوقت الحاضر، تستخدم رقاقات الذكاء الاصطناعي مثل وحدات معالجةTensor (TPUs ) ووحدات معالجة الرسومات المحسّنة طاقة أقل مع التعامل مع نماذج أكبر وأكثر تعقيداً. وقد جعل ذلك الذكاء الاصطناعي أكثر سهولة وفائدة في تطبيقات العالم الحقيقي.

مع كل تحسين جديد في الأجهزة، تصبح تطبيقات الذكاء الاصطناعي التوليدي والرؤية الحاسوبية أكثر قوة. هذه التطورات تجعل الذكاء الاصطناعي في الوقت الحقيقي أسرع وأكثر كفاءة وجاهزية للاستخدام في المزيد من الصناعات.

كيف يقوم الذكاء الاصطناعي التوليدي بتشكيل نماذج الكشف عن الأجسام

عند سؤاله عن كيفية تأثير الذكاء الاصطناعي التوليدي على الرؤية الحاسوبية، قال جينغ تشيو إن المحولات، وهي نماذج تساعد الذكاء الاصطناعي على التركيز على أهم أجزاء الصورة، قد غيرت الطريقة التي يفهم بها الذكاء الاصطناعي الصور ويعالجها. كانت الخطوة الكبيرة الأولى هي DETR (محول الكشف)، الذي استخدم هذا النهج الجديد لاكتشاف الأجسام. وقد أدى ذلك إلى تحسين الدقة ولكنه واجه مشكلات في الأداء جعلته أبطأ في بعض الحالات.

لحل هذه المشكلة، ابتكر الباحثون نماذج هجينة مثل RT-DETR. وتجمع هذه النماذج بين الشبكات العصبية التلافيفية (CNNs، وهي نماذج تعلُّم عميقة تتعلم وتستخرج الميزات من الصور تلقائياً) والمحوّلات، مما يحقق التوازن بين السرعة والدقة. يستفيد هذا النهج من مزايا المحولات مع جعل اكتشاف الكائنات أسرع.

من المثير للاهتمام أن YOLOv10 يستخدم طبقات الانتباه القائمة على المحولات (أجزاء من النموذج تعمل مثل الأضواء الكاشفة لإبراز المناطق الأكثر أهمية في الصورة مع تجاهل التفاصيل الأقل أهمية) لتعزيز أدائه. 

ذكر أو وانغ أيضاً كيف يغير الذكاء الاصطناعي التوليدي الطريقة التي يتم بها تدريب النماذج. تساعد تقنيات مثل نمذجة الصور المقنعة الذكاء الاصطناعي على التعلم من الصور بشكل أكثر كفاءة، مما يقلل من الحاجة إلى مجموعات البيانات الكبيرة المصنفة يدويًا. وهذا يجعل التدريب على الرؤية الحاسوبية أسرع وأقل استهلاكاً للموارد.

مستقبل الذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري 

من الأفكار الرئيسية الأخرى التي ناقشتها الجلسة هي كيف يمكن للذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري أن يجتمعا معاً لبناء نماذج أكثر قدرة. أوضح جلين يوتشر أنه على الرغم من أن هذين النهجين يتمتعان بنقاط قوة مختلفة، إلا أن الجمع بينهما يمكن أن يفتح إمكانيات جديدة. 

على سبيل المثال، غالبًا ما تقوم نماذج الذكاء الاصطناعي المرئي مثل YOLO بتقسيم الصورة إلى شبكة لتحديد الأشياء. يمكن لهذه الطريقة القائمة على الشبكة أن تساعد النماذج اللغوية على تحسين قدرتها على تحديد التفاصيل ووصفها على حد سواء - وهو تحدٍ تواجهه العديد من النماذج اللغوية اليوم. في الأساس، قد يؤدي دمج هذه التقنيات إلى أنظمة يمكنها اكتشاف ما تراه بدقة وشرحه بوضوح.

الشكل 4. مستقبل الذكاء الاصطناعي التوليدي والرؤيوي. الصورة للمؤلف.

الوجبات الرئيسية

يتقدم الذكاء الاصطناعي التوليدي والرؤية الحاسوبية معاً. بينما يعمل الذكاء الاصطناعي التوليدي على إنشاء الصور ومقاطع الفيديو، فإنه يعمل أيضًا على تحسين تحليل الصور ومقاطع الفيديو من خلال تقديم أفكار مبتكرة جديدة يمكن أن تجعل نماذج الذكاء الاصطناعي التوليدي أكثر دقة وكفاءة. 

في هذه الجلسة النقاشية الثاقبة في YV24، شارك كل من جلين جوتشر، وجينغ كيو، وآو وانغ أفكارهم حول كيفية تشكيل هذه التقنيات للمستقبل. مع وجود أجهزة ذكاء اصطناعي أفضل، سيستمر الذكاء الاصطناعي التوليدي والذكاء الاصطناعي البصري في التطور، مما يؤدي إلى ابتكارات أكبر. يعمل هذان المجالان معاً لابتكار ذكاء اصطناعي أكثر ذكاءً وسرعة وفائدة للحياة اليومية.

انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لمعرفة المزيد عن Vision AI. اطلع على خيارات الترخيص لدينا لبدء مشاريع الرؤية الحاسوبية الخاصة بك. هل أنت مهتم بابتكارات مثل الذكاء الاصطناعي في التصنيع أو رؤية الكمبيوتر في القيادة الذاتية؟ تفضل بزيارة صفحات الحلول الخاصة بنا لاكتشاف المزيد. 

شعار الفيسبوكشعار تويترشعار LinkedInرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي