الشيك الأخضر
تم نسخ الرابط إلى الحافظة

2024 يبدأ بموجة الذكاء الاصطناعي التوليدية

نظرة على ابتكارات الذكاء الاصطناعي المثيرة في الربع الأول من عام 2024. سنغطي اختراقات مثل الذكاء الاصطناعي Sora من OpenAI، وشريحة الدماغ من Neuralink، وأحدث الابتكارات في مجال الذكاء الاصطناعي.

يبدو أن مجتمع الذكاء الاصطناعي يتصدر عناوين الصحف يوميا تقريبا. كانت الأشهر القليلة الأولى من عام 2024 مثيرة ومليئة بالابتكارات الذكاء الاصطناعي الجديدة. من نماذج اللغة الكبيرة الجديدة القوية إلى غرسات الدماغ البشري ، يتشكل عام 2024 ليكون مذهلا.

نحن نشهد الذكاء الاصطناعي تحول الصناعات ، وجعل المعلومات أكثر سهولة ، وحتى اتخاذ الخطوات الأولى نحو دمج عقولنا مع الآلات. دعونا نرجع الربع الأول من عام 2024 ونلقي نظرة فاحصة على التقدم المحرز في الذكاء الاصطناعي في غضون بضعة أشهر فقط.

LLMs تتجه

احتلت نماذج اللغة الكبيرة (LLMs) ، المصممة لفهم اللغة البشرية وتوليدها ومعالجتها بناء على كميات هائلة من البيانات النصية ، مركز الصدارة في الربع الأول من عام 2024. أصدرت العديد من شركات التكنولوجيا الكبرى نماذج LLM الخاصة بها ، ولكل منها قدرات فريدة. النجاح المذهل ل LLMs السابقة مثل GPT-3 ألهم هذا الاتجاه. فيما يلي بعض أبرز إصدارات LLM من أوائل عام 2024.

Anthropicكلود 3

Anthropic صدر كلود 3 في 14 مارس 2024. يأتي طراز كلود 3 في ثلاثة إصدارات: Opus و Sonnet و Haiku ، كل منها يخدم أسواقا وأغراضا مختلفة. تم تحسين Haiku ، أسرع طراز ، للحصول على استجابات سريعة وأساسية. توازن Sonnet بين السرعة والذكاء وتستهدف تطبيقات المؤسسات. يوفر Opus ، الإصدار الأكثر تقدما ، ذكاء وتفكيرا لا مثيل لهما وهو مثالي للمهام المعقدة وتحقيق أعلى المعايير.

يتميز كلود 3 بالعديد من الميزات والتحسينات المتقدمة:

  • محادثات محسنة متعددة اللغات: قدرات محسنة في اللغات بما في ذلك الإسبانية واليابانية والفرنسية.
  • ميزات الرؤية المتقدمة: قادرة على التعامل مع التنسيقات المرئية المختلفة
  • الحد الأدنى من حالات الرفض: يظهر المزيد من الفهم مع عدد أقل من حالات الرفض غير الضرورية، مما يشير إلى تحسن فهم السياق
  • نافذة السياق الموسعة: يوفر نافذة سياق 200K ، ولكنه قادر على معالجة المدخلات التي تزيد عن 1 مليون رمز بناء على احتياجات العملاء.
الشكل 1. كلود 3 أكثر وعيا بالسياق من الإصدارات السابقة.

داتا بريك DBRX

Databricks DBRX هو ماجستير مفتوح للأغراض العامة تم إصداره بواسطة Databricks في 27 مارس 2024. يعمل DBRX بشكل جيد في مختلف المعايير ، بما في ذلك فهم اللغة والبرمجة والرياضيات. إنه يفوق النماذج الأخرى الراسخة بينما يكون أصغر بنسبة 40٪ تقريبا من النماذج المماثلة.

الشكل 2. مقارنة DBRX مع النماذج الأخرى.

تم تدريب DBRX باستخدام التنبؤ بالرمز المميز التالي مع بنية مزيج دقيق من الخبراء (MoE) ، ولهذا السبب يمكننا أن نرى تحسينات كبيرة في أداء التدريب والاستدلال. تسمح بنيته للنموذج بالتنبؤ بالكلمة التالية في تسلسل أكثر دقة من خلال استشارة مجموعة متنوعة من النماذج الفرعية المتخصصة ("الخبراء"). هذه النماذج الفرعية جيدة في التعامل مع أنواع مختلفة من المعلومات أو المهام.

Googleالجوزاء 1.5

Google طرح Gemini 1.5، وهو نموذج ذكاء اصطناعي متعدد الوسائط وفعال من حيث الحوسبة يمكنه تحليل بيانات نصية وفيديو وصوتية واسعة النطاق، في 15 فبراير 2024. النموذج الأحدث أكثر تقدماً من حيث الأداء والكفاءة والقدرات. الميزة الرئيسية في نموذج Gemini 1.5 هي اختراقه في فهم السياق الطويل. النموذج قادر على التعامل مع ما يصل إلى مليون رمز بشكل متسق. يعود الفضل في قدرات Gemini 1.5 أيضًا إلى بنية جديدة قائمة على MoE.

الشكل 3. مقارنة أطوال السياق ل LLMs الشائعة

فيما يلي بعض ميزات الجوزاء 1.5 الأكثر إثارة للاهتمام:

  • معالجة محسنة للبيانات: يسمح بالتحميل المباشر لملفات PDF الكبيرة أو مستودعات التعليمات البرمجية أو مقاطع الفيديو الطويلة كمطالبات. يمكن للنموذج التفكير عبر الطرائق ونص الإخراج.
  • تحميلات واستعلامات ملفات متعددة: يمكن للمطورين الآن تحميل ملفات متعددة وطرح الأسئلة.
  • يمكن استخدامها لمهام مختلفة: تم تحسينه للتوسع عبر مهام متنوعة ، ويظهر تحسينات في مجالات مثل الرياضيات والعلوم والتفكير وتعدد اللغات وفهم الفيديو والتعليمات البرمجية

مرئيات مذهلة من الذكاء الاصطناعي

كشف الربع الأول من عام 2024 النقاب عن نماذج الذكاء الاصطناعي التوليدية التي يمكنها إنشاء صور حقيقية لدرجة أنها أثارت مناقشات حول مستقبل وسائل التواصل الاجتماعي والتقدم الذي أحرزته الذكاء الاصطناعي. دعنا نتعمق في النماذج التي تثير المحادثة.

سورا من OpenAI 

OpenAI ، مبتكر ChatGPT، أعلن عن نموذج حديث للتعلم العميق لتحويل النص إلى فيديو يسمى سورا في 15 فبراير 2024. Sora هو مولد تحويل النص إلى فيديو قادر على إنشاء مقاطع فيديو مدتها دقيقة بجودة بصرية عالية بناء على مطالبات المستخدم النصية. 

على سبيل المثال ، ألق نظرة على المطالبة التالية. 

"عالم الأعمال الفنية الورقية الرائع للشعاب المرجانية ، المليء بالأسماك الملونة والمخلوقات البحرية." 

وهنا إطار من إخراج الفيديو. 

الشكل 4. إطار من مقطع فيديو تم إنشاؤه بواسطة Sora.

تجعل بنية سورا هذا ممكنا من خلال مزج نماذج الانتشار لتوليد النسيج ونماذج المحولات للتماسك الهيكلي. حتى الآن ، تم منح الوصول إلى Sora لأعضاء الفريق الأحمر ومجموعة مختارة من الفنانين البصريين والمصممين وصانعي الأفلام لفهم المخاطر والحصول على التعليقات. 

Stability AIالانتشار المستقر 3 

Stability AI عن وصول Stable Diffusion 3 ، وهو نموذج لتوليد النص إلى صورة ، في 22 فبراير 2024. يمزج النموذج بين بنية محول الانتشار ومطابقة التدفق. لم يصدروا بعد ورقة فنية ، ولكن هناك بعض الميزات الرئيسية التي يجب البحث عنها.

الشكل 5. تعتمد صورة الإخراج على المطالبة: "عمل فني ملحمي لساحر على قمة جبل في الليل يلقي تعويذة كونية في السماء المظلمة تقول" الانتشار المستقر 3 "مصنوعة من الطاقة الملونة"

يوفر أحدث طراز من الانتشار المستقر أداء محسنا وجودة صورة ودقة في إنشاء صور ذات أهداف متعددة. كما سيقدم Stable Diffusion 3 مجموعة متنوعة من النماذج التي تتراوح من 800 مليون إلى 8 مليارات معلمة. سيسمح للمستخدمين بالاختيار بناء على احتياجاتهم الخاصة لقابلية التوسع والتفاصيل.

Googleلوميير 

في 23 يناير 2024، أطلق الموقع الإلكتروني Google Lumiere، وهو نموذج نشر النص إلى فيديو. يستخدم Lumiere بنية تسمى Space-Time-U-Net، أو STUNet اختصاراً. تساعد لوميير على فهم مكان الأشياء وكيفية تحركها في الفيديو. وبذلك، يمكنه إنشاء مقاطع فيديو سلسة ونابضة بالحياة.

الشكل 6. إطار من مقطع فيديو تم إنشاؤه بناء على المطالبة: "الباندا تلعب القيثارة في المنزل".

مع القدرة على توليد 80 إطارا لكل فيديو ، تتخطى Lumiere الحدود وتضع معايير جديدة لجودة الفيديو في مساحة الذكاء الاصطناعي. فيما يلي بعض ميزات Lumiere:

  • صورة إلى فيديو: بدءا من صورة ومطالبة ، يمكن ل Lumiere تحريك الصور إلى مقاطع فيديو.
  • جيل منمق: يمكن ل Lumiere إنشاء مقاطع فيديو بأنماط محددة باستخدام صورة مرجعية واحدة.
  • Cinemagraphs: يمكن ل Lumiere تحريك مناطق معينة داخل الصورة لإنشاء مشاهد ديناميكية ، مثل كائن معين يتحرك بينما يظل باقي المشهد ثابتا.
  • فيديو Inpainting: يمكنه تعديل أجزاء من الفيديو ، مثل تغيير ملابس الأشخاص بداخله أو تغيير تفاصيل الخلفية.

يبدو أن المستقبل هنا

جلبت بداية عام 2024 أيضا العديد من الابتكارات الذكاء الاصطناعي التي تبدو وكأنها شيء من فيلم خيال علمي. الأشياء التي كنا نقول في السابق أنها مستحيلة يتم العمل عليها الآن. المستقبل لا يبدو بعيدا جدا مع الاكتشافات التالية.

إيلون ماسك نيورالينك

نجح Elon Musk في زرع رقاقة الدماغ اللاسلكية في الإنسان في 29 يناير 2024. هذه خطوة كبيرة نحو ربط أدمغة البشر بأجهزة الكمبيوتر. شارك Elon Musk أن أول منتج لشركة Neuralink ، المسمى "Telepathy" ، قيد الإعداد. 

الشكل 7. غرسة نيورالينك

الهدف هو تمكين المستخدمين ، وخاصة أولئك الذين فقدوا وظائف الأطراف ، من التحكم في الأجهزة دون عناء من خلال أفكارهم. تمتد التطبيقات المحتملة إلى ما هو أبعد من الراحة. يتخيل Elon Musk مستقبلا حيث يمكن للأفراد المصابين بالشلل التواصل بسهولة.

ديزني هولوتيل فلور 

في 18 يناير 2024 ، كشف والت ديزني إيماجينيرينج النقاب عن أرضية HoloTile. وقد أطلق عليها اسم أول جهاز مشي متعدد الأشخاص في العالم. 

الشكل 8. متخيل ديزني لاني سموت يقف على أحدث ابتكاراته ، أرضية HoloTile.

يمكن أن يتحرك تحت أي شخص أو كائن مثل التحريك الذهني للحصول على تجربة واقع افتراضي ومعزز غامرة. يمكنك المشي في أي اتجاه ، وتجنب الاصطدامات أثناء ذلك. يمكن أيضا زرع أرضية HoloTile من ديزني على خشبة المسرح للرقص والتحرك بطرق إبداعية.

رؤية أبل برو

في 2 فبراير 2024 ، وصلت سماعة Vision Pro التي طال انتظارها من Apple إلى السوق. يحتوي على مجموعة من الميزات والتطبيقات المصممة لإعادة تعريف تجربة الواقع الافتراضي والمعزز. تلبي سماعة Vision Pro جمهورا متنوعا من خلال مزج الترفيه والإنتاجية والحوسبة المكانية. أعلنت Apple بفخر أن أكثر من 600 تطبيق ، بدءا من أدوات الإنتاجية إلى خدمات الألعاب والترفيه ، تم تحسينها ل Vision Pro عند إطلاقها.

ديفين الإدراك

في 12 مارس 2024 ، أصدرت Cognition مساعد هندسة برمجيات يسمى ديفين. ديفين هي أول محاولة في العالم لمهندس برمجيات الذكاء الاصطناعي مستقل. على عكس مساعدي الترميز التقليديين الذين يقدمون اقتراحات أو يكملون مهام محددة ، تم تصميم Devin للتعامل مع مشاريع تطوير البرامج بأكملها من المفهوم الأولي إلى الانتهاء. 

يمكنه تعلم تقنيات جديدة ، وإنشاء تطبيقات كاملة ونشرها ، والعثور على الأخطاء وإصلاحها ، وتدريب نماذجها الخاصة ، والمساهمة في قواعد التعليمات البرمجية مفتوحة المصدر والإنتاج ، وحتى تولي وظائف التطوير الحقيقية من مواقع مثل Upwork. 

الشكل 9. مقارنة ديفين مع النماذج الأخرى.

تم تقييم ديفين على SWE-bench ، وهو معيار صعب يطلب من الوكلاء حل مشكلات GitHub في العالم الحقيقي الموجودة في مشاريع مفتوحة المصدر مثل Django و scikit-learn. لقد حلت بشكل صحيح 13.86٪ من المشكلات من البداية إلى النهاية ، مقارنة بالحالة السابقة البالغة 1.96٪.

تنويهات مشرفة

لقد حدث الكثير لدرجة أن تغطية كل شيء في هذه المقالة غير ممكن. ولكن ، إليك بعض الإشارات الأكثر شرفا. 

  • NVIDIALATTE3D، الذي أُعلِن عنه في 21 مارس 2024، هو نموذج ذكاء اصطناعي من نص إلى ثلاثي الأبعاد يقوم على الفور بإنشاء تمثيلات ثلاثية الأبعاد من المطالبات النصية.
  • بدأ مولد تحويل النص إلى فيديو الجديد من Midjourney ، الذي أثاره الرئيس التنفيذي ديفيد هولز ، التدريب في يناير ومن المتوقع إطلاقه قريبا.
  • لتعزيز ثورة الكمبيوتر الذكاء الاصطناعي ، أصدرت Lenovo ThinkBook 13x بتقنية E Ink Prism وأجهزة الكمبيوتر المحمولة الذكاء الاصطناعي عالية الأداء في 8 يناير 2024.

ابق على اطلاع على اتجاهات الذكاء الاصطناعي معنا!

شهدت بداية عام 2024 تطورات رائدة في الذكاء الاصطناعي والعديد من المعالم التكنولوجية الرئيسية. لكن هذه مجرد بداية لما يمكن أن يفعله الذكاء الاصطناعي. إذا كنت ترغب في معرفة المزيد عن آخر التطورات الذكاء الاصطناعي ، Ultralytics لقد حصلت على تغطيتها.

تحقق من مستودع GitHub الخاص بنا للاطلاع على أحدث مساهماتنا في رؤية الكمبيوتر الذكاء الاصطناعي. يمكنك أيضا إلقاء نظرة على صفحات الحلول الخاصة بنا لمعرفة كيفية استخدام الذكاء الاصطناعي في صناعات مثل التصنيع والرعاية الصحية

شعار الفيسبوكشعار تويترشعار لينكد إنرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي