الذكاء الاصطناعي 2024: الموجة التوليدية للذكاء الاصطناعي

يبدو أن مجتمع الذكاء الاصطناعي يتصدر عناوين الأخبار بشكل شبه يومي. كانت الأشهر القليلة الأولى من عام 2024 مثيرة ومليئة بابتكارات الذكاء الاصطناعي الجديدة. من نماذج اللغة الكبيرة القوية الجديدة إلى غرسات الدماغ البشري، يبدو عام 2024 واعدًا.

نشهد تحول الذكاء الاصطناعي في الصناعات، مما يجعل المعلومات أكثر سهولة، بل ويخطو الخطوات الأولى نحو دمج عقولنا مع الآلات. دعنا نرجع إلى الربع الأول من عام 2024 ونلقي نظرة فاحصة على التقدم المحرز في الذكاء الاصطناعي في بضعة أشهر فقط.

نماذج LLMs تتجه بقوة

احتلت نماذج اللغة الكبيرة (LLMs)، المصممة لفهم وإنشاء ومعالجة اللغة البشرية بناءً على كميات هائلة من البيانات النصية، مركز الصدارة في الربع الأول من عام 2024. أصدرت العديد من شركات التكنولوجيا الكبرى نماذج LLM الخاصة بها، ولكل منها قدرات فريدة. ألهم النجاح المذهل لنماذج LLM السابقة مثل GPT-3 هذا الاتجاه. فيما يلي بعض من أبرز إصدارات LLM من أوائل عام 2024.

Anthropic كلود 3

أصدرت Anthropic كلود 3 في 14 مارس 2024. يأتي طراز Claude 3 في ثلاثة إصدارات: Opus، وSonnet، وHiku، وكل منها يخدم أسواقًا وأغراضًا مختلفة. Haiku، وهو النموذج الأسرع، تم تحسينه للاستجابة السريعة والأساسية. يوازن Sonnet بين السرعة والذكاء ويستهدف تطبيقات المؤسسات. يوفر Opus، وهو الإصدار الأكثر تقدمًا، ذكاءً واستدلالاً لا مثيل له وهو مثالي للمهام المعقدة وتحقيق أعلى المعايير.

يتميز Claude 3 بالعديد من الميزات والتحسينات المتقدمة:

محادثات متعددة اللغات محسّنة: قدرات محسّنة في لغات تشمل الإسبانية واليابانية والفرنسية.
‍
ميزات رؤية متقدمة: قادرة على التعامل مع مختلف التنسيقات المرئية.
‍
أقل حالات الرفض: يُظهر فهمًا أكبر مع عدد أقل من حالات الرفض غير الضرورية، مما يشير إلى تحسن الإدراك السياقي.
‍
نافذة سياق موسعة: يوفر نافذة سياق بحجم 200 ألف رمز، ولكنه قادر على معالجة مدخلات تتجاوز مليون رمز بناءً على احتياجات العملاء.

__wf_reserved_inherit — الشكل 1. Claude 3 أكثر وعيًا بالسياق من الإصدارات السابقة.

‍

DBRX من Databricks

Databricks DBRX هو نموذج لغوي كبير (LLM) مفتوح للأغراض العامة أطلقته Databricks في 27 مارس 2024. يحقق DBRX أداءً جيدًا حقًا في مختلف المعايير، بما في ذلك فهم اللغة والبرمجة والرياضيات. يتفوق على النماذج الأخرى المعروفة بينما هو أصغر بنسبة 40٪ تقريبًا من النماذج المماثلة.

‍

تم تدريب DBRX باستخدام توقع الرمز التالي مع بنية خليط الخبراء (MoE) دقيقة، وهذا هو السبب في أننا نرى تحسينات كبيرة في أداء التدريب والاستدلال. تسمح بنيته للنموذج بالتنبؤ بالكلمة التالية في التسلسل بدقة أكبر من خلال الرجوع إلى مجموعة متنوعة من النماذج الفرعية المتخصصة ("الخبراء"). هذه النماذج الفرعية جيدة في التعامل مع أنواع مختلفة من المعلومات أو المهام.

Googleجيميني 1.5 من Google1.5

طرحت Google Gemini 1.5، وهو نموذج ذكاء اصطناعي متعدد الوسائط وفعال من حيث الحوسبة يمكنه تحليل بيانات نصية وفيديو وصوتية واسعة النطاق، في 15 فبراير 2024. يُعد النموذج الأحدث أكثر تقدماً من حيث الأداء والكفاءة والقدرات. الميزة الرئيسية في نموذج Gemini 1.5 هي اختراقه في فهم السياق الطويل. النموذج قادر على التعامل مع ما يصل إلى مليون رمز بشكل متسق. يعود الفضل في قدرات Gemini 1.5 أيضًا إلى بنية جديدة قائمة على MoE.

‍

إليك بعضًا من أهم ميزات Gemini 1.5:

معالجة محسنة للبيانات: يسمح بتحميل مباشر لملفات PDF كبيرة أو مستودعات التعليمات البرمجية أو مقاطع الفيديو المطولة كمطالبات. يمكن للنموذج أن يستنتج عبر الوسائط وإخراج النص.
‍
تحميلات واستعلامات متعددة للملفات: يمكن للمطورين الآن تحميل ملفات متعددة وطرح الأسئلة.
‍
يمكن استخدامه لمهام مختلفة: تم تحسينه للتوسع عبر مهام متنوعة، ويظهر تحسينات في مجالات مثل الرياضيات والعلوم والاستدلال واللغات المتعددة وفهم الفيديو والتعليمات البرمجية.

مرئيات مذهلة من الذكاء الاصطناعي

كشف الربع الأول من عام 2024 عن نماذج الذكاء الاصطناعي التوليدية التي يمكنها إنشاء صور مرئية واقعية للغاية لدرجة أنها أثارت مناقشات حول مستقبل وسائل التواصل الاجتماعي وتقدم الذكاء الاصطناعي. دعنا نتعمق في النماذج التي تثير هذه المحادثة.

Sora من OpenAI

أعلنت شركة OpenAI، مبتكر ChatGPT عن نموذج متطور لتحويل النص إلى فيديو، وهو نموذج متطور للتعلم العميق يسمى Sora في 15 فبراير 2024. Sora هو مولد لتحويل النص إلى فيديو قادر على توليد مقاطع فيديو مدتها دقيقة واحدة بجودة بصرية عالية بناءً على مطالبات المستخدم النصية.

على سبيل المثال، ألق نظرة على المطالبة التالية.

“عالم مصنوع من الورق بشكل رائع لشعاب مرجانية، مليء بالأسماك الملونة والكائنات البحرية.”

وهنا إطار من الفيديو الناتج.

‍

تجعل بنية Sora ذلك ممكنًا من خلال الجمع بين نماذج الانتشار لتوليد النسيج ونماذج المحولات للتماسك الهيكلي. حتى الآن، تم منح الوصول إلى Sora لفرق المراجعة الداخلية ومجموعة مختارة من الفنانين البصريين والمصممين وصانعي الأفلام لفهم المخاطر والحصول على التعليقات.

الانتشار المستقر Stability AIالمستقر 3

أعلنت Stability AI عن وصول نموذج Stability Diffusion 3، وهو نموذج توليد نص إلى صورة، في 22 فبراير 2024. يمزج النموذج بين بنية محول الانتشار ومطابقة التدفق. لم يصدروا ورقة تقنية بعد، ولكن هناك بعض الميزات الرئيسية التي يجب البحث عنها.

‍

يقدم أحدث نموذج من Stable Diffusion أداءً وجودة صورة ودقة محسّنة في إنشاء صور تحتوي على مواضيع متعددة. سيوفر Stable Diffusion 3 أيضًا مجموعة متنوعة من النماذج تتراوح من 800 مليون إلى 8 مليارات معلمة. سيسمح ذلك للمستخدمين بالاختيار بناءً على احتياجاتهم الخاصة من حيث قابلية التوسع والتفاصيل.

لوميير من Google

في 23 يناير 2024، أطلقت Google في 23 يناير 2024، أطلقت Google Lumiere، وهو نموذج نشر النص إلى فيديو. يستخدم Lumiere بنية تسمى Space-Time-U-Net، أو STUNet اختصاراً. تساعد لوميير على فهم مكان الأشياء وكيفية تحركها في الفيديو. وبذلك، يمكنه إنشاء مقاطع فيديو سلسة ونابضة بالحياة.

‍

مع القدرة على إنشاء 80 إطارًا لكل مقطع فيديو، يدفع Lumiere الحدود ويضع معايير جديدة لجودة الفيديو في مجال الذكاء الاصطناعي. فيما يلي بعض ميزات Lumiere:

تحويل الصورة إلى فيديو: بدءًا من صورة ومطالبة، يمكن لـ Lumiere تحريك الصور إلى مقاطع فيديو.
‍
جيل مُنمّق: يمكن لـ Lumiere إنشاء مقاطع فيديو بأنماط محددة باستخدام صورة مرجعية واحدة.
‍
الرسوم المتحركة السينمائية: يمكن لـ Lumiere تحريك مناطق معينة داخل صورة لإنشاء مشاهد ديناميكية، مثل تحريك كائن معين بينما يظل باقي المشهد ثابتًا.
‍
ترميم الفيديو: يمكنه تعديل أجزاء من الفيديو، مثل تغيير ملابس الأشخاص الموجودين فيه أو تغيير تفاصيل الخلفية.

يبدو أن المستقبل قد وصل

كما جلب بداية عام 2024 العديد من ابتكارات الذكاء الاصطناعي التي تبدو وكأنها مأخوذة من فيلم خيال علمي. الأشياء التي كنا نقول سابقًا أنها مستحيلة يتم العمل عليها الآن. المستقبل لا يبدو بعيدًا جدًا مع الاكتشافات التالية.

Neuralink من Elon Musk

زرعت Neuralink التابعة لـ Elon Musk بنجاح شريحة الدماغ اللاسلكية الخاصة بها في إنسان في 29 يناير 2024. هذه خطوة كبيرة نحو ربط أدمغة الإنسان بأجهزة الكمبيوتر. شارك Elon Musk أن أول منتج لـ Neuralink، والذي يحمل اسم ‘Telepathy،’ قيد الإعداد.

‍

الهدف هو تمكين المستخدمين، وخاصة أولئك الذين فقدوا وظائف الأطراف، من التحكم في الأجهزة بسهولة من خلال أفكارهم. تمتد التطبيقات المحتملة إلى ما هو أبعد من مجرد الراحة. يتخيل Elon Musk مستقبلًا يمكن فيه للأفراد المصابين بالشلل التواصل بسهولة.

أرضية HoloTile من Disney

في 18 يناير 2024، كشفت Walt Disney Imagineering عن أرضية HoloTile. وقد أُطلق عليها اسم أول أرضية جهاز مشي متعددة الاتجاهات ومتعددة الأشخاص في العالم.

‍

يمكن أن تتحرك تحت أي شخص أو كائن مثل التحريك الذهني لتجربة واقع افتراضي ومعزز غامرة. يمكنك المشي في أي اتجاه، وتجنب الاصطدامات أثناء وجودك عليها. يمكن أيضًا زرع أرضية HoloTile من Disney على المسارح للرقص والتحرك بطرق إبداعية.

Vision Pro من Apple

في 2 فبراير 2024، وصل جهاز Vision Pro المنتظر من Apple إلى السوق. يحتوي على مجموعة من الميزات والتطبيقات المصممة لإعادة تعريف تجربة الواقع الافتراضي والمعزز. يلبي جهاز Vision Pro جمهورًا متنوعًا من خلال مزج الترفيه والإنتاجية والحوسبة المكانية. أعلنت Apple بفخر أنه تم تحسين أكثر من 600 تطبيق، تتراوح من أدوات الإنتاجية إلى خدمات الألعاب والترفيه، لجهاز Vision Pro عند إطلاقه.

Devin من Cognition

في 12 مارس 2024، أطلقت Cognition مساعدًا في هندسة البرمجيات يسمى Devin. Devin هو أول محاولة في العالم لمهندس برمجيات يعمل بالذكاء الاصطناعي المستقل. على عكس مساعدي الترميز التقليديين الذين يقدمون اقتراحات أو يكملون مهام محددة، تم تصميم Devin للتعامل مع مشاريع تطوير البرامج بأكملها من المفهوم الأولي إلى الاكتمال.

يمكنه تعلم تقنيات جديدة، وبناء تطبيقات كاملة ونشرها، وإيجاد الأخطاء وإصلاحها، وتدريب النماذج الخاصة به، والمساهمة في قواعد التعليمات البرمجية مفتوحة المصدر والإنتاجية، وحتى تولي وظائف تطوير حقيقية من مواقع مثل Upwork.

‍

تم تقييم Devin على SWE-bench، وهو معيار صعب يطلب من الوكلاء حل مشكلات GitHub الواقعية الموجودة في المشاريع مفتوحة المصدر مثل Django و scikit-learn. لقد حل بشكل صحيح 13.86٪ من المشكلات بشكل كامل، مقارنةً بالحالة السابقة لأحدث التقنيات التي بلغت 1.96٪.

إشارات جديرة بالذكر

حدث الكثير لدرجة أن تغطية كل شيء في هذه المقالة غير ممكنة. ولكن، إليك بعض الإشارات الجديرة بالذكر.

تم الإعلان عن LATTE3D من NVIDIA في 21 مارس 2024، وهو نموذج ذكاء اصطناعي من نص إلى ثلاثي الأبعاد يقوم بإنشاء تمثيلات ثلاثية الأبعاد على الفور من المطالبات النصية.
‍
بدأ التدريب على مولد تحويل النص إلى فيديو الجديد من Midjourney، الذي ألمح إليه الرئيس التنفيذي David Holz، في يناير ومن المتوقع إطلاقه قريبًا.
‍
في إطار تعزيز ثورة أجهزة الكمبيوتر التي تعمل بالذكاء الاصطناعي، أصدرت Lenovo جهاز ThinkBook 13x بتقنية E Ink Prism وأجهزة كمبيوتر محمولة عالية الأداء تعمل بالذكاء الاصطناعي في 8 يناير 2024.

ابق على اطلاع دائم على اتجاهات الذكاء الاصطناعي معنا!

شهدت بداية عام 2024 تطورات رائدة في مجال الذكاء الاصطناعي والعديد من الإنجازات التكنولوجية الكبرى. ولكن هذه مجرد بداية لما يمكن أن يفعله الذكاء الاصطناعي. إذا كنت ترغب في معرفة المزيد عن أحدث تطورات الذكاء الاصطناعي، فإن Ultralytics ستساعدك في ذلك.

تحقق من مستودع GitHub الخاص بنا للاطلاع على أحدث مساهماتنا في مجال الرؤية الحاسوبية والذكاء الاصطناعي. يمكنك أيضًا إلقاء نظرة على صفحات الحلول الخاصة بنا لمعرفة كيف يتم استخدام الذكاء الاصطناعي في صناعات مثل التصنيع و الرعاية الصحية.

تبدأ سنة 2024 بموجة من الذكاء الاصطناعي التوليدي

نماذج LLMs تتجه بقوة

Anthropic كلود 3

DBRX من Databricks

Googleجيميني 1.5 من Google1.5

مرئيات مذهلة من الذكاء الاصطناعي

Sora من OpenAI

الانتشار المستقر Stability AIالمستقر 3

لوميير من Google

يبدو أن المستقبل قد وصل

Neuralink من Elon Musk

أرضية HoloTile من Disney

Vision Pro من Apple

Devin من Cognition

إشارات جديرة بالذكر

ابق على اطلاع دائم على اتجاهات الذكاء الاصطناعي معنا!

اقرأ المزيد في هذه الفئة

12 حالة استخدام للصور الجوية مدعومة بالرؤية الحاسوبية

أدوات الرؤية الاصطناعية لتشخيص الرعاية الصحية

من البيانات إلى القرارات: استخدام الذكاء الاصطناعي البصري في استراتيجية المؤسسة

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

تبدأ سنة 2024 بموجة من الذكاء الاصطناعي التوليدي

نماذج LLMs تتجه بقوة

Anthropic كلود 3

DBRX من Databricks

Googleجيميني 1.5 من Google1.5

مرئيات مذهلة من الذكاء الاصطناعي

Sora من OpenAI

الانتشار المستقر Stability AIالمستقر 3

لوميير من Google

يبدو أن المستقبل قد وصل

Neuralink من Elon Musk

أرضية HoloTile من Disney

Vision Pro من Apple

Devin من Cognition

إشارات جديرة بالذكر

ابق على اطلاع دائم على اتجاهات الذكاء الاصطناعي معنا!

اقرأ المزيد في هذه الفئة

12 حالة استخدام للصور الجوية مدعومة بالرؤية الحاسوبية

أدوات الرؤية الاصطناعية لتشخيص الرعاية الصحية

من البيانات إلى القرارات: استخدام الذكاء الاصطناعي البصري في استراتيجية المؤسسة

لنبنِ مستقبل الذكاء الاصطناعي معًا!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!