استكشف GPT-4o الجديد من OpenAI، الذي يتميز بذكاء اصطناعي متقدم مع تفاعلات نابضة بالحياة تغيّر طريقة تواصلنا مع التكنولوجيا. استكشف ميزاته الرائدة!
في يوم الاثنين 13 مايو 2024، أعلنت OpenAI عن إطلاق نموذجها الرائد الجديد GPT-4o، حيث يرمز حرف "o" إلى "omni". GPT-4o هو نموذج ذكاء اصطناعي متقدم متعدد الوسائط للتفاعلات النصية والصوتية والبصرية في الوقت الفعلي، ويوفر معالجة أسرع ودعمًا متعدد اللغات وأمانًا محسنًا.
إنه يقدم قدرات ذكاء اصطناعي توليدية لم يسبق لها مثيل. بناءً على نقاط قوة المحادثة في ChatGPT ، تمثل ميزات GPT-4o خطوة كبيرة إلى الأمام في كيفية إدراك الناس للذكاء الاصطناعي. يمكننا الآن التحدث إلى GPT-4o كما لو كان شخصًا حقيقيًا. دعنا نتعمق ونرى بالضبط ما يستطيع GPT-4o فعله!
في التحديث الربيعي لـ OpenAI، تم الكشف عن أنه على الرغم من أن GPT-4o ذكي مثل GPT-4، إلا أنه يمكنه معالجة البيانات بشكل أسرع، وهو مجهز بشكل أفضل للتعامل مع النصوص والرؤية والصوت. على عكس الإصدارات السابقة التي ركّزت على جعل النماذج أكثر ذكاءً، فقد تم إصدار هذا الإصدار مع مراعاة الحاجة إلى تسهيل استخدام الذكاء الاصطناعي من قبل الجمهور العام.
ChatGPTتضمّن الوضع الصوتي، الذي تم إصداره في أواخر العام الماضي، ثلاثة نماذج مختلفة تتضافر معًا لنسخ المدخلات الصوتية، وفهم الردود المكتوبة وتوليدها، وتحويل النص إلى كلام حتى يتمكن المستخدم من سماع الرد. تعامل هذا الوضع مع مشكلات وقت الاستجابة ولم يكن يبدو طبيعياً جداً. أما GPT-4o فيمكنه معالجة النص والرؤية والصوت دفعة واحدة لإعطاء المستخدم الانطباع بأنه يشارك في محادثة طبيعية.
أيضًا، على عكس الوضع الصوتي، يمكنك الآن مقاطعة GPT-4o أثناء حديثه، وسيتفاعل تمامًا كما يفعل الشخص. سيتوقف مؤقتًا ويستمع، ثم يعطي رده في الوقت الفعلي بناءً على ما قلته. يمكنه أيضاً التعبير عن المشاعر من خلال صوته وفهم نبرة صوتك أيضاً.
يُظهر تقييم نموذج GPT-4o مدى تقدمه. كانت إحدى النتائج الأكثر إثارة للاهتمام التي تم التوصل إليها هي أن GPT-4o يُحسّن بشكل كبير من التعرّف على الكلام مقارنةً بـ Whisper-v3 في جميع اللغات، خاصةً تلك الأقل استخدامًا.
يقيس أداء ASR (التعرّف التلقائي على الكلام) مدى دقة النموذج في تحويل اللغة المنطوقة إلى نص. يتم تتبع أداء GPT-4o من خلال معدل الخطأ في الكلمات (WER)، والذي يُظهر النسبة المئوية للكلمات التي تم نسخها بشكل غير صحيح (انخفاض معدل الخطأ في الكلمات يعني جودة أفضل). يوضّح الرسم البياني أدناه مُعدّل الخطأ في الكلمات (WER) الأقل في GPT-4o في مختلف المناطق، مما يدل على فعاليته في تحسين التعرّف على الكلام للغات ذات الموارد المنخفضة.
إليك نظرة على بعض ميزات GPT-4o الفريدة من نوعها:
يمكنك الآن سحب GPT-4o من هاتفك، وتشغيل الكاميرا، والطلب من GPT-4o، كما تفعل مع صديق، أن يخمّن حالتك المزاجية بناءً على تعابير وجهك. يمكن ل GPT-4o رؤيتك من خلال الكاميرا والإجابة.
يمكنك حتى استخدامه لمساعدتك في حل مسائل الرياضيات من خلال عرض GPT-4o لما تكتبه من خلال الفيديو. بدلاً من ذلك، يمكنك مشاركة شاشتك، ويمكنه أن يصبح مدرسًا مساعدًا لك على خان أكاديمي، حيث يطلب منك الإشارة إلى الأجزاء المختلفة للمثلث في علم الهندسة، كما هو موضح أدناه.
بالإضافة إلى مساعدة الأطفال في الرياضيات، يمكن للمطوّرين إجراء محادثات مع GPT-4o لتصحيح أكوادهم البرمجية. وهذا ممكن بفضل تقديم ChatGPT كتطبيق لسطح المكتب. إذا قمت بتمييز الكود الخاص بك ونسخه باستخدام CTRL "C" أثناء التحدث إلى تطبيق GPT-4o الصوتي لسطح المكتب، فسيكون بإمكانه قراءة الكود الخاص بك. أو يمكنك استخدامه لترجمة المحادثات بين المطورين الذين يتحدثون لغات مختلفة.
تبدو الاحتمالات مع GPt-4o لا حصر لها. أحد أكثر العروض التوضيحية المثيرة للاهتمام من OpenAI استخدم هاتفين لإظهار GPt-4o وهو يتحدث إلى حالات مختلفة من نفسه ويغنيان معًا.
كما هو موضح في العرض التوضيحي، يمكن لـ GPT-4o أن يجعل العالم أكثر سهولة للأشخاص الذين يعانون من إعاقات بصرية. ويمكنه مساعدتهم على التفاعل والتنقل بأمان واستقلالية أكبر. على سبيل المثال، يمكن للمستخدمين تشغيل الفيديو الخاص بهم وإظهار GPT-4o منظرًا للشارع. يمكن لـ GPT-4o بعد ذلك تقديم وصف في الوقت الفعلي للبيئة، مثل تحديد العوائق أو قراءة لافتات الشوارع أو إرشادهم إلى موقع معين. كما يمكنه مساعدتهم في طلب سيارة أجرة عن طريق تنبيههم عند اقتراب سيارة أجرة.
وبالمثل، يمكن لـ GPT-4o أن يُحدث تحولاً في مختلف الصناعات بفضل قدراته المتقدمة. ففي مجال البيع بالتجزئة، يمكنه تحسين خدمة العملاء من خلال تقديم المساعدة في الوقت الفعلي، والإجابة على الاستفسارات، ومساعدة العملاء في العثور على المنتجات سواء عبر الإنترنت أو في المتجر. لنفترض أنك تنظر إلى رف من المنتجات ولا يمكنك اختيار المنتج الذي تبحث عنه، يمكن لـ GPT-4o مساعدتك.
في مجال الرعاية الصحية، يمكن لـ GPT-4o المساعدة في التشخيص من خلال تحليل بيانات المريض، واقتراح الحالات المحتملة بناءً على الأعراض، وتقديم إرشادات بشأن خيارات العلاج. ويمكنه أيضًا دعم المهنيين الطبيين من خلال تلخيص سجلات المرضى، وتوفير إمكانية الوصول السريع إلى الأدبيات الطبية، وحتى تقديم ترجمة لغوية في الوقت الفعلي للتواصل مع المرضى الذين يتحدثون لغات مختلفة. هذه بعض الأمثلة فقط. تجعل تطبيقات GPT-4o الحياة اليومية أكثر سهولة من خلال تقديم مساعدة مصممة خصيصاً ومُدرِكة للسياق وكسر الحواجز أمام المعلومات والتواصل.
تماماً مثل الإصدارات السابقة من GPT، التي أثرت على حياة مئات الملايين من الأشخاص، من المرجح أن يتفاعل GPT-4o مع الصوت والفيديو في الوقت الحقيقي على مستوى العالم، مما يجعل السلامة عنصراً حاسماً في هذه التطبيقات. لقد كان OpenAI حريصاً جداً على بناء GPT-4o مع التركيز على تخفيف المخاطر المحتملة.
لضمان السلامة والموثوقية، طبقت OpenAI تدابير سلامة صارمة. وتشمل هذه الإجراءات تصفية بيانات التدريب، وتنقيح سلوك النموذج بعد التدريب، ودمج أنظمة أمان جديدة لإدارة المخرجات الصوتية. وعلاوة على ذلك، تم اختبار GPT-4o على نطاق واسع من قبل أكثر من 70 خبيراً خارجياً في مجالات مثل علم النفس الاجتماعي، والتحيز والإنصاف، والتضليل. يضمن الاختبار الخارجي تحديد ومعالجة أي مخاطر يتم إدخالها أو تضخيمها من خلال الميزات الجديدة.
للحفاظ على معايير السلامة العالية، يقوم OpenAI بإطلاق ميزات GPT-4o تدريجياً خلال الأسابيع القليلة القادمة. ويسمح الطرح التدريجي ل OpenAI بمراقبة الأداء ومعالجة أي مشاكل وجمع ملاحظات المستخدمين. يضمن اتباع نهج دقيق أن يوفر GPT-4o قدرات متقدمة مع الحفاظ على أعلى معايير السلامة والاستخدام الأخلاقي.
يتوفر تطبيق GPT-4o مجاناً. لتجربة إمكانيات المحادثة في الوقت الفعلي المذكورة أعلاه، يمكنك تنزيل تطبيقChatGPT من متجر Google Play Store أو Apple App Store مباشرةً على هاتفك.
بعد تسجيل الدخول، ستتمكن من تحديد GPT-4o من القائمة المعروضة بالنقر على النقاط الثلاث في الزاوية العلوية اليمنى من الشاشة. بعد الانتقال إلى دردشة مُمكّنة مع GPT-4o، إذا نقرت على علامة الجمع في الزاوية السفلية اليسرى من الشاشة، ستظهر لك خيارات إدخال متعددة. في الزاوية اليمنى السفلية من الشاشة، سترى أيقونة سماعة الرأس. عند تحديد أيقونة سماعة الرأس، سيُطلب منك ما إذا كنت ترغب في تجربة إصدار GPT-4o بدون استخدام اليدين. بعد الموافقة، ستتمكن من تجربة GPT-4o، كما هو موضح أدناه.
إذا كنت ترغب في دمج إمكانيات GPT-4o المتقدمة في مشاريعك الخاصة، فهي متاحة كواجهة برمجة تطبيقات للمطورين. فهي تسمح لك بدمج قدرات GPT-4o القوية في التعرّف على الكلام، والدعم متعدد اللغات، وقدرات المحادثة في الوقت الحقيقي في تطبيقاتك. باستخدام واجهة برمجة التطبيقات، يمكنك تحسين تجارب المستخدمين، وإنشاء تطبيقات أكثر ذكاءً، وتقديم أحدث تقنيات الذكاء الاصطناعي إلى قطاعات مختلفة.
في حين أن GPT-4o أكثر تقدماً بكثير من نماذج الذكاء الاصطناعي السابقة، من المهم أن تتذكر أن GPT-4o يأتي مع قيوده الخاصة. فقد ذكر OpenAI أنه يمكنه أحياناً التبديل بين اللغات بشكل عشوائي أثناء التحدث، حيث ينتقل من English إلى الفرنسية. لقد رأوا أيضاً أن GPT-4o يترجم بشكل غير صحيح بين اللغات. مع تجربة المزيد من الأشخاص للنموذج، سنفهم أين يتفوق GPT-4o وما الذي يحتاج إلى مزيد من التحسين.
يفتح GPT-4o من OpenAI أبواباً جديدة للذكاء الاصطناعي من خلال معالجته المتقدمة للنصوص والرؤية والصوت، مما يوفر تفاعلات طبيعية شبيهة بالتفاعلات البشرية. وهو يتفوق من حيث السرعة والفعالية من حيث التكلفة والدعم متعدد اللغات. GPT-4o هو أداة متعددة الاستخدامات للتعليم وإمكانية الوصول والمساعدة في الوقت الحقيقي. بينما يستكشف المستخدمون قدرات GPT-4o، ستقود التعليقات والملاحظات تطورها. يُثبت GPT-4o أن الذكاء الاصطناعي يُغيّر عالمنا حقًا ويصبح جزءًا من حياتنا اليومية.
استكشف مستودع GitHub الخاص بنا وانضم إلى مجتمعنا للتعمق في الذكاء الاصطناعي. قم بزيارة صفحات الحلول الخاصة بنا لمعرفة كيف يقوم الذكاء الاصطناعي بتحويل صناعات مثل التصنيع والزراعة.