نظرة على ابتكارات الذكاء الاصطناعي المثيرة في الربع الأول من عام 2024. سنغطي اختراقات مثل الذكاء الاصطناعي Sora من OpenAI، وشريحة الدماغ من Neuralink، وأحدث الابتكارات في مجال الذكاء الاصطناعي.
يبدو أن مجتمع الذكاء الاصطناعي يتصدر عناوين الصحف يوميا تقريبا. كانت الأشهر القليلة الأولى من عام 2024 مثيرة ومليئة بالابتكارات الذكاء الاصطناعي الجديدة. من نماذج اللغة الكبيرة الجديدة القوية إلى غرسات الدماغ البشري ، يتشكل عام 2024 ليكون مذهلا.
نحن نشهد الذكاء الاصطناعي تحول الصناعات ، وجعل المعلومات أكثر سهولة ، وحتى اتخاذ الخطوات الأولى نحو دمج عقولنا مع الآلات. دعونا نرجع الربع الأول من عام 2024 ونلقي نظرة فاحصة على التقدم المحرز في الذكاء الاصطناعي في غضون بضعة أشهر فقط.
احتلت نماذج اللغة الكبيرة (LLMs) ، المصممة لفهم اللغة البشرية وتوليدها ومعالجتها بناء على كميات هائلة من البيانات النصية ، مركز الصدارة في الربع الأول من عام 2024. أصدرت العديد من شركات التكنولوجيا الكبرى نماذج LLM الخاصة بها ، ولكل منها قدرات فريدة. النجاح المذهل ل LLMs السابقة مثل GPT-3 ألهم هذا الاتجاه. فيما يلي بعض أبرز إصدارات LLM من أوائل عام 2024.
Anthropic صدر كلود 3 في 14 مارس 2024. يأتي طراز كلود 3 في ثلاثة إصدارات: Opus و Sonnet و Haiku ، كل منها يخدم أسواقا وأغراضا مختلفة. تم تحسين Haiku ، أسرع طراز ، للحصول على استجابات سريعة وأساسية. توازن Sonnet بين السرعة والذكاء وتستهدف تطبيقات المؤسسات. يوفر Opus ، الإصدار الأكثر تقدما ، ذكاء وتفكيرا لا مثيل لهما وهو مثالي للمهام المعقدة وتحقيق أعلى المعايير.
يتميز كلود 3 بالعديد من الميزات والتحسينات المتقدمة:
Databricks DBRX هو ماجستير مفتوح للأغراض العامة تم إصداره بواسطة Databricks في 27 مارس 2024. يعمل DBRX بشكل جيد في مختلف المعايير ، بما في ذلك فهم اللغة والبرمجة والرياضيات. إنه يفوق النماذج الأخرى الراسخة بينما يكون أصغر بنسبة 40٪ تقريبا من النماذج المماثلة.
تم تدريب DBRX باستخدام التنبؤ بالرمز المميز التالي مع بنية مزيج دقيق من الخبراء (MoE) ، ولهذا السبب يمكننا أن نرى تحسينات كبيرة في أداء التدريب والاستدلال. تسمح بنيته للنموذج بالتنبؤ بالكلمة التالية في تسلسل أكثر دقة من خلال استشارة مجموعة متنوعة من النماذج الفرعية المتخصصة ("الخبراء"). هذه النماذج الفرعية جيدة في التعامل مع أنواع مختلفة من المعلومات أو المهام.
Google طرح Gemini 1.5، وهو نموذج ذكاء اصطناعي متعدد الوسائط وفعال من حيث الحوسبة يمكنه تحليل بيانات نصية وفيديو وصوتية واسعة النطاق، في 15 فبراير 2024. النموذج الأحدث أكثر تقدماً من حيث الأداء والكفاءة والقدرات. الميزة الرئيسية في نموذج Gemini 1.5 هي اختراقه في فهم السياق الطويل. النموذج قادر على التعامل مع ما يصل إلى مليون رمز بشكل متسق. يعود الفضل في قدرات Gemini 1.5 أيضًا إلى بنية جديدة قائمة على MoE.
فيما يلي بعض ميزات الجوزاء 1.5 الأكثر إثارة للاهتمام:
كشف الربع الأول من عام 2024 النقاب عن نماذج الذكاء الاصطناعي التوليدية التي يمكنها إنشاء صور حقيقية لدرجة أنها أثارت مناقشات حول مستقبل وسائل التواصل الاجتماعي والتقدم الذي أحرزته الذكاء الاصطناعي. دعنا نتعمق في النماذج التي تثير المحادثة.
OpenAI ، مبتكر ChatGPT، أعلن عن نموذج حديث للتعلم العميق لتحويل النص إلى فيديو يسمى سورا في 15 فبراير 2024. Sora هو مولد تحويل النص إلى فيديو قادر على إنشاء مقاطع فيديو مدتها دقيقة بجودة بصرية عالية بناء على مطالبات المستخدم النصية.
على سبيل المثال ، ألق نظرة على المطالبة التالية.
"عالم الأعمال الفنية الورقية الرائع للشعاب المرجانية ، المليء بالأسماك الملونة والمخلوقات البحرية."
وهنا إطار من إخراج الفيديو.
تجعل بنية سورا هذا ممكنا من خلال مزج نماذج الانتشار لتوليد النسيج ونماذج المحولات للتماسك الهيكلي. حتى الآن ، تم منح الوصول إلى Sora لأعضاء الفريق الأحمر ومجموعة مختارة من الفنانين البصريين والمصممين وصانعي الأفلام لفهم المخاطر والحصول على التعليقات.
Stability AI عن وصول Stable Diffusion 3 ، وهو نموذج لتوليد النص إلى صورة ، في 22 فبراير 2024. يمزج النموذج بين بنية محول الانتشار ومطابقة التدفق. لم يصدروا بعد ورقة فنية ، ولكن هناك بعض الميزات الرئيسية التي يجب البحث عنها.
يوفر أحدث طراز من الانتشار المستقر أداء محسنا وجودة صورة ودقة في إنشاء صور ذات أهداف متعددة. كما سيقدم Stable Diffusion 3 مجموعة متنوعة من النماذج التي تتراوح من 800 مليون إلى 8 مليارات معلمة. سيسمح للمستخدمين بالاختيار بناء على احتياجاتهم الخاصة لقابلية التوسع والتفاصيل.
في 23 يناير 2024، أطلق الموقع الإلكتروني Google Lumiere، وهو نموذج نشر النص إلى فيديو. يستخدم Lumiere بنية تسمى Space-Time-U-Net، أو STUNet اختصاراً. تساعد لوميير على فهم مكان الأشياء وكيفية تحركها في الفيديو. وبذلك، يمكنه إنشاء مقاطع فيديو سلسة ونابضة بالحياة.
مع القدرة على توليد 80 إطارا لكل فيديو ، تتخطى Lumiere الحدود وتضع معايير جديدة لجودة الفيديو في مساحة الذكاء الاصطناعي. فيما يلي بعض ميزات Lumiere:
جلبت بداية عام 2024 أيضا العديد من الابتكارات الذكاء الاصطناعي التي تبدو وكأنها شيء من فيلم خيال علمي. الأشياء التي كنا نقول في السابق أنها مستحيلة يتم العمل عليها الآن. المستقبل لا يبدو بعيدا جدا مع الاكتشافات التالية.
نجح Elon Musk في زرع رقاقة الدماغ اللاسلكية في الإنسان في 29 يناير 2024. هذه خطوة كبيرة نحو ربط أدمغة البشر بأجهزة الكمبيوتر. شارك Elon Musk أن أول منتج لشركة Neuralink ، المسمى "Telepathy" ، قيد الإعداد.
الهدف هو تمكين المستخدمين ، وخاصة أولئك الذين فقدوا وظائف الأطراف ، من التحكم في الأجهزة دون عناء من خلال أفكارهم. تمتد التطبيقات المحتملة إلى ما هو أبعد من الراحة. يتخيل Elon Musk مستقبلا حيث يمكن للأفراد المصابين بالشلل التواصل بسهولة.
في 18 يناير 2024 ، كشف والت ديزني إيماجينيرينج النقاب عن أرضية HoloTile. وقد أطلق عليها اسم أول جهاز مشي متعدد الأشخاص في العالم.
يمكن أن يتحرك تحت أي شخص أو كائن مثل التحريك الذهني للحصول على تجربة واقع افتراضي ومعزز غامرة. يمكنك المشي في أي اتجاه ، وتجنب الاصطدامات أثناء ذلك. يمكن أيضا زرع أرضية HoloTile من ديزني على خشبة المسرح للرقص والتحرك بطرق إبداعية.
في 2 فبراير 2024 ، وصلت سماعة Vision Pro التي طال انتظارها من Apple إلى السوق. يحتوي على مجموعة من الميزات والتطبيقات المصممة لإعادة تعريف تجربة الواقع الافتراضي والمعزز. تلبي سماعة Vision Pro جمهورا متنوعا من خلال مزج الترفيه والإنتاجية والحوسبة المكانية. أعلنت Apple بفخر أن أكثر من 600 تطبيق ، بدءا من أدوات الإنتاجية إلى خدمات الألعاب والترفيه ، تم تحسينها ل Vision Pro عند إطلاقها.
في 12 مارس 2024 ، أصدرت Cognition مساعد هندسة برمجيات يسمى ديفين. ديفين هي أول محاولة في العالم لمهندس برمجيات الذكاء الاصطناعي مستقل. على عكس مساعدي الترميز التقليديين الذين يقدمون اقتراحات أو يكملون مهام محددة ، تم تصميم Devin للتعامل مع مشاريع تطوير البرامج بأكملها من المفهوم الأولي إلى الانتهاء.
يمكنه تعلم تقنيات جديدة ، وإنشاء تطبيقات كاملة ونشرها ، والعثور على الأخطاء وإصلاحها ، وتدريب نماذجها الخاصة ، والمساهمة في قواعد التعليمات البرمجية مفتوحة المصدر والإنتاج ، وحتى تولي وظائف التطوير الحقيقية من مواقع مثل Upwork.
تم تقييم ديفين على SWE-bench ، وهو معيار صعب يطلب من الوكلاء حل مشكلات GitHub في العالم الحقيقي الموجودة في مشاريع مفتوحة المصدر مثل Django و scikit-learn. لقد حلت بشكل صحيح 13.86٪ من المشكلات من البداية إلى النهاية ، مقارنة بالحالة السابقة البالغة 1.96٪.
لقد حدث الكثير لدرجة أن تغطية كل شيء في هذه المقالة غير ممكن. ولكن ، إليك بعض الإشارات الأكثر شرفا.
شهدت بداية عام 2024 تطورات رائدة في الذكاء الاصطناعي والعديد من المعالم التكنولوجية الرئيسية. لكن هذه مجرد بداية لما يمكن أن يفعله الذكاء الاصطناعي. إذا كنت ترغب في معرفة المزيد عن آخر التطورات الذكاء الاصطناعي ، Ultralytics لقد حصلت على تغطيتها.
تحقق من مستودع GitHub الخاص بنا للاطلاع على أحدث مساهماتنا في رؤية الكمبيوتر الذكاء الاصطناعي. يمكنك أيضا إلقاء نظرة على صفحات الحلول الخاصة بنا لمعرفة كيفية استخدام الذكاء الاصطناعي في صناعات مثل التصنيع والرعاية الصحية.