الشيك الأخضر
تم نسخ الرابط إلى الحافظة

xAI تطلق Grok 2.0 مع تكامل FLUX.1 مع نظام FLUX.1

تعرّف على Grok 2.0 من xAI لإيلون ماسك وتكامله مع FLUX.1. استكشف التفاصيل مثل الميزات والمعايير ومقارنات النماذج وكيفية تجربتها.

في 14 أغسطس، أعلنت شركة إيلون ماسك للذكاء الاصطناعي، xAI، عن إطلاق Grok 2.0، وهو روبوت دردشة مدمج مع FLUX.1، وهو نموذج لتوليد الصور من شركة Black Forest Labs، على X (تويتر سابقاً). FLUX.1 هو نموذج متقدم قادر على إنشاء صور واقعية للغاية، بما في ذلك الصور التي يمكن اعتبارها حساسة أو مضللة.

على عكس العديد من مولدات الصور الشائعة التي تحظر أو تصفي أنواعًا معينة من المحتوى، مثل الصور العنيفة أو الفاضحة أو المخادعة، فإن FLUX.1 لديه قيود أقل. يعتبره البعض مكسباً لحرية التعبير، بينما يرى البعض الآخر أنه مكسب لحرية التعبير، بينما ينبهر آخرون بقدراته المتقدمة. ومع ذلك، هناك أيضًا مخاوف بشأن الآثار الأخلاقية وسوء الاستخدام المحتمل لهذه التكنولوجيا القوية. دعونا نغوص في هذا الموضوع ونستكشف ما يجلبه Grok 2.0 إلى الطاولة، وما الذي يجعل FLUX.1 متميزًا، وكيف يمكنك تجربة هذه الأدوات المبتكرة بنفسك.

التعرف على FLUX.1: مولد الصور بالذكاء الاصطناعي

FLUX.1 هو مولد صور متقدم مفتوح المصدر للذكاء الاصطناعي أطلقته Black Forest Labs في 1 أغسطس 2024. Black Forest Labs هي شركة ناشئة أسسها مهندسون سابقون في Stability AI معروفون بعملهم على نماذج Stable Diffusion المستخدمة على نطاق واسع. صُمم FLUX.1 لينافس مباشرةً اللاعبين المعروفين مثل MidJourney وDALL-E 3، ويوفر مستوى جديدًا من الجودة والمرونة للصور التي يتم إنشاؤها بالذكاء الاصطناعي. على سبيل المثال، يقوم FLUX.1 بعمل رائع في التعامل مع التفاصيل الصعبة التي تعاني منها العديد من النماذج، مثل توليد أيدي بشرية واقعية المظهر أو نص مقروء على اللافتات.

تقدم Black Forest Labs ثلاثة أشكال مختلفة من FLUX.1 يمكن استخدامها في تطبيقات مختلفة. إليك نظرة فاحصة على الأشكال المختلفة:

  • FLUX.1 [pro]: النموذج الرئيسي للاستخدام التجاري وهو مصمم لتقديم مخرجات عالية الجودة.
  • FLUX.1 [dev]: نسخة مفتوحة الوزن متاحة للاستخدام غير التجاري. وهي مثالية للبحث والتطوير.
  • FLUX.1 [schnell]: نموذج مُحسَّن للسرعة تحت رخصة Apache 2.0، وهو مثالي للمشاريع الشخصية والتطوير المحلي حيثما كانت هناك حاجة إلى توليد سريع للصور.
الشكل 1. فهم الاختلافات في FLUX.1

كيف يعمل FLUX.1؟

يستخدم FLUX.1 بنية نموذج هجين يجمع بين تقنيات المحولات والانتشار مع حجم نموذج يبلغ 12 مليار معلمة (الأجزاء القابلة للتعديل من الشبكة العصبية التي تساعدها على التعلم من البيانات). المحولات هي نوع من الشبكات العصبية التي يمكنها فهم التسلسلات مثل النصوص والصور من خلال التعرف على الأنماط والعلاقات داخل البيانات. تعمل نماذج الانتشار من خلال البدء بتشويش عشوائي وتنقيحها خطوة بخطوة حتى تتشكل صورة واضحة. من خلال الجمع بين هاتين الطريقتين، يمكن لـ FLUX.1 استخدام نقاط القوة في كلتا البنيتين لإنتاج صور عالية الجودة تتطابق مع المطالبات النصية المقدمة. 

يستخدم FLUX.1 أيضًا تقنيات متقدمة مثل التضمينات الموضعية الدوارة ومطابقة التدفق. تساعد التضمينات الموضعية الدوارة النموذج على فهم ترتيب وموضع العناصر في النص والصور للتأكد من أن كل شيء منطقي معًا. مطابقة التدفق هي تقنية مستخدمة في النماذج التوليدية لجعل عملية إنشاء الصور من الضوضاء العشوائية أكثر سلاسة وفعالية.

المقارنة المعيارية FLUX.1

عند مقارنة FLUX.1 بنماذج أخرى شائعة مثل MidJourney v6.0 وDALL-E 3 (HD) وSD3-Ultra، فإن FLUX.1 يضع معيارًا جديدًا في توليد الصور بالذكاء الاصطناعي. فهو يتفوق في مجالات رئيسية مثل جودة الصورة، ومدى اتباعه للمطالبات، وتنوع المخرجات، ودعم مختلف الأحجام ونسب العرض إلى الارتفاع. يتميز نموذجا FLUX.1 [المحترف] و[المطور] بإنتاج صور عالية الجودة تتطابق بشكل كبير مع ما يريده المستخدمون، وغالبًا ما تتفوق هذه النماذج على النماذج الأخرى في تقديم نتائج واضحة ودقيقة. من ناحية أخرى، يعد FLUX.1 [schnell] أحد أكثر النماذج تقدمًا في توليد الصور السريعة وأداءه أفضل من النماذج الأكثر تعقيدًا مثل MidJourney.

الشكل 2. مقارنة بين Midjourney v6 و FLUX.1 [محترف]

Grok 2.0: أحدث ما توصل إليه إيلون ماسك في مجال الذكاء الاصطناعي xAI

Grok 2.0 هو أحدث نموذج لغوي كبير طورته شركة XAI التابعة لإيلون ماسك للذكاء الاصطناعي. تم إصدار Grok 2.0 في أغسطس 2024، وهو متاح لمستخدمي X Premium وPremium+ على منصة X (تويتر سابقاً). كما أنه سيكون متاحًا قريبًا للمطورين والشركات من خلال واجهة برمجة تطبيقات المؤسسات.

الشكل 3. مثال على Grok 2.0 يشرح ميمي.

تم بناء Grok 2.0 على بنية المحولات، ومقارنةً بنسخته الأقدم، Grok 1.5، فهو أكثر انسجاماً مع اتباع التعليمات واستنتاج المشاكل وتقديم معلومات دقيقة. وقد تم اختبار روبوت الدردشة الآلي ضد نماذج الذكاء الاصطناعي الرائدة الأخرى وأظهر نتائج مبهرة. تفوّق Grok 2.0 على النماذج الشائعة مثل GPT-4 Turbo وClaude 3.5 Sonnet وLlama 3 405B في معايير تتضمن أسئلة علمية على مستوى الدراسات العليا ومعلومات عامة ومسائل رياضية معقدة. كما أن Grok 2.0 جيد أيضًا في المهام التي تتطلب فهمًا بصريًا وحقق درجات عالية في التفكير البصري في الرياضيات والإجابة عن الأسئلة المستندة إلى المستندات.

الارتباط بين Grok 2.0 و FLUX.1

تم دمج FLUX.1 في Grok 2.0 لتوفير مزيج سلس من توليد النصوص والصور. على الرغم من أن الجمع بين التقنيات المختلفة أمر شائع اليوم لتحسين الوظائف وتجربة المستخدم، إلا أن هذا الدمج تحديدًا حظي باهتمام كبير. 

من ناحية، أشاد البعض بتكامل FLUX.1 لإضافة عنصر "المتعة" إلى Grok 2.0. يمكن للمستخدمين تجربة توليد صور إبداعية، وفي بعض الأحيان منفعلة، وهي أشياء قد تكون مقيدة أو خاضعة للإشراف الشديد من قبل أدوات الذكاء الاصطناعي الأخرى. على سبيل المثال، قام المستخدمون بمشاركة صور على تطبيق X تصور شخصيات عامة في مواقف غير لائقة أو مثيرة للجدل، بدعوى أنها تدعم مفهوم حرية التعبير.

من ناحية أخرى، يجادل النقاد بأن افتقار FLUX.1 إلى إرشادات أخلاقية واضحة قد يؤدي إلى مشاكل أخلاقية واجتماعية خطيرة مثل التضليل والتزييف العميق. ويشعر البعض بالقلق من أن الجمع بين توليد النصوص والصور القوية وغير الخاضعة للرقابة على واحدة من أكثر منصات التواصل الاجتماعي تأثيراً قد يؤدي إلى زيادة انتشار المعلومات المضللة.

Grok 2.0 ونهجها غير المقيد

لا يتعلق الأمر فقط بتوليد الصور. بل إن Grok 2.0 نفسه أكثر تقييدًا من أدوات الذكاء الاصطناعي الأخرى التي ألفناها مؤخرًا، مثل ChatGPT. هذا الافتقار إلى الاعتدال يجعل من الممكن للنموذج أن يتخطى الحدود بطرق يجدها البعض مثيرة ويجدها البعض الآخر مقلقة.

على سبيل المثال، لوحظ قيام Grok 2.0 بإنشاء محتوى نصي يمكن تفسيره بسهولة على أنه أخبار كاذبة أو مضللة. وقد تضمنت حادثة وقعت مؤخراً قيام Grok 2.0 بإنشاء قصة كاذبة عن لاعب كرة السلة الأمريكي كلاي طومسون الذي يُفترض أنه "يقوم برمي الطوب". أخطأ روبوت الدردشة الآلي في فهم مصطلح "رمي الطوب" في كرة السلة، والذي يشير ببساطة إلى التسديدات الضائعة. وبدلاً من ذلك، أخذ Grok 2.0 المصطلح حرفياً واختلق قصة حول ارتكاب طومسون أعمال تخريب بالطوب الحقيقي. وسرعان ما اكتسب المنشور رواجاً كبيراً على X، حتى أن بعض المستخدمين أضافوا حسابات وهمية للضحايا لتغذية المعلومات الخاطئة.

الشكل 4. المنشور على X الذي كتبه Grok 2.

على الرغم من هذه المخاوف، يقدّر بعض المستخدمين موقف Grok 2.0 من "حرية التعبير". فهم يجادلون بأنه يسمح بمحادثات أكثر انفتاحاً وحرية إبداعية أكثر من نماذج الذكاء الاصطناعي الخاضعة للإشراف الشديد. ويرون أن Grok 2.0 يتعارض مع ما يعتبرونه ذكاءً اصطناعيًا حذرًا بشكل مفرط و "مستيقظًا" يحد من النقاش حول المواضيع الحساسة. فبالنسبة لهؤلاء المستخدمين، يوفر Grok 2.0 منصة تبدو أقل تقييداً بالمعايير المجتمعية.

جرّب FLUX.1 و Grok 2.0 بنفسك

هناك بعض الخيارات المختلفة المتعلقة بتجربة FLUX.1 و Grok 2.0. يمكن الوصول إلى FLUX.1 مباشرةً من خلال منصات الذكاء الاصطناعي مثل Hugging Face و Replicate و Fal.ai. أما Grok 2.0 فهو متاح فقط لمشتركي X Premium وPremium+.

الماخذ الرئيسية

يتخطى FLUX.1 وG Grok 2.0 حدود الذكاء الاصطناعي ويثيران محادثات ثاقبة. لقد وضع FLUX.1 معيارًا جديدًا في مجال الصور التي يتم إنشاؤها بالذكاء الاصطناعي مع قدرته على إنتاج صور واقعية ومفصلة للغاية. يستخدم Grok 2.0 برنامج FLUX.1 لتعزيز قدراته بما يتجاوز مجرد التفاعلات النصية. فمن ناحية، يشعر المتحمسون بالسعادة الغامرة بالحرية الإبداعية والاستكشاف غير الخاضع للرقابة الذي توفره هذه الأدوات. على الجانب الآخر، يدق النقاد ناقوس الخطر بشأن مخاطر التضليل والتزييف العميق والآثار الأخلاقية لمثل هذه القدرات غير المنظمة على منصة مؤثرة مثل X. مع تطور FLUX.1 و Grok 2.0، فإنهما يقفان في قلب نقاش حول الحرية والإبداع والمسؤولية في العصر الرقمي - وهو نقاش من المرجح أن يشكل مستقبل الذكاء الاصطناعي لسنوات قادمة.

لمعرفة المزيد حول Ultralytics ، تحقق من مستودع GitHub الخاص بنا، وانضم إلى مجتمعنا، واستكشف أحدث حلول الذكاء الاصطناعي لدينا في صناعات مثل الرعاية الصحية والتصنيع! 🚀

شعار الفيسبوكشعار تويترشعار لينكد إنرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي