الشيك الأخضر
تم نسخ الرابط إلى الحافظة

آخر تحديثات OpenAI: اللوحة القماشية وضبط الرؤية والمزيد

انضم إلينا ونحن نلقي نظرة فاحصة على التحديثات الأخيرة ChatGPT التي أصدرها OpenAI. سنستكشف Canvas، والضبط الدقيق لقدرات الرؤية، وأحدث ميزة البحث.

بعد آخر مرة ألقينا فيها نظرة على نماذج o1 الخاصة بـ OpenAI في سبتمبر (والتي تم تصميمها لتحسين التفكير المنطقي)، تمت إضافة العديد من الميزات الجديدة والمثيرة إلى ChatGPT. بعض هذه الإصدارات موجهة للمطورين، والبعض الآخر مصمم لتحسين تجربة المستخدم. بشكل عام، تساعد كل ترقية في جعل التفاعلات مع ChatGPT أكثر سهولة وفعالية.

وقد أثارت التحديثات مثل Canvas، المصممة للكتابة التعاونية والترميز، والضبط الدقيق لقدرات الرؤية التي تحسّن كيفية عمل ChatGPT مع الصور، الكثير من الاهتمام، مما شجع المستخدمين على استكشاف المزيد من الإمكانيات الإبداعية. وفي الوقت نفسه، تعالج الترقيات التقنية، مثل واجهات برمجة التطبيقات الجديدة وتقارير اختبار الإنصاف، جوانب مثل تكامل النماذج، والممارسات الأخلاقية للذكاء الاصطناعي . دعونا نتعمق في الأمر ونحصل على فهم أفضل لأحدث ميزات ChatGPT من OpenAI!

نظرة عامة على ميزة Canvas في OpenAI

Canvas هو أول تحديث رئيسي لواجهة المستخدم (UI) الخاصة بـ ChatGPTمنذ إصداره. وهو عبارة عن واجهة جديدة ذات تخطيط ثنائي الشاشة، والمطالبات على الشريط الجانبي الأيسر، والردود في النافذة الجانبية اليمنى. تتخلص واجهة المستخدم الجديدة من سير العمل المعتاد لبنية الشاشة الواحدة الشبيهة بالدردشة وتنتقل إلى تخطيط من شاشتين يناسب أغراض تعدد المهام لتعزيز الإنتاجية.

الشكل 1. تجلب Canvas تحديثات واجهة المستخدم إلى ChatGPT.

قبل تقديم Canvas، كان العمل مع المستندات الطويلة على ChatGPT يعني الاضطرار إلى التمرير لأعلى ولأسفل قليلاً. في التصميم الجديد، يتم عرض المطالبات على الشريط الجانبي الأيسر، ويشغل المستند النصي أو مقتطف التعليمات البرمجية معظم الشاشة. إذا لزم الأمر، يمكنك حتى تخصيص حجم الشريط الجانبي الأيسر وشاشة الإخراج. كما يمكنك أيضًا تحديد جزء من النص أو جزء من التعليمات البرمجية وتحرير الجزء المحدد دون تغيير المستند بأكمله.

الشكل 2. تحرير أقسام محددة من النص باستخدام Canvas.

إذا كنت تستخدم Canvas، ستلاحظ عدم وجود زر أو مفتاح تبديل محدد لفتحه على واجهة ChatGPT . بدلًا من ذلك، عندما تعمل مع نموذج GPT-4o، يفتح Canvas تلقائيًا إذا اكتشف أنك تقوم بالتحرير أو الكتابة أو الترميز. بالنسبة للمطالبات الأبسط، يبقى غير نشط. إذا كنت ترغب في فتحه يدويًا، يمكنك استخدام مطالبات مثل "افتح اللوحة القماشية" أو "احصل لي على تخطيط اللوحة القماشية".

حاليًا، Canvas في مرحلة تجريبية ومتاحة فقط مع GPT-4o. ومع ذلك، فقد ذكر OpenAI أن Canvas سيكون متاحًا لجميع المستخدمين المجانيين عندما يخرج من الإصدار التجريبي.

ChatGPTتحديثات واجهة برمجة التطبيقات

أصدرت OpenAI ثلاثة تحديثات جديدة لواجهة برمجة التطبيقات ChatGPT تهدف إلى تحسين الكفاءة وقابلية التوسع والتنوع. دعونا نلقي نظرة فاحصة على كل من هذه التحديثات.

التقطير النموذجي

باستخدام ميزة تقطير النماذج من خلال واجهات برمجة التطبيقات OpenAI، يمكن للمطورين استخدام مخرجات النماذج المتقدمة مثل GPT-4o أو o1-preview لتحسين أداء النماذج الأصغر حجماً والأكثر كفاءة من حيث التكلفة مثل GPT-4o mini. تقطير النماذج هو عملية تتضمن تدريب نماذج أصغر لمحاكاة سلوك النماذج الأكثر تقدمًا، مما يجعلها أكثر كفاءة لمهام محددة.

قبل تقديم هذه الميزة، كان على المطورين تنسيق مجموعة متنوعة من المهام يدويًا باستخدام أدوات مختلفة. تضمنت هذه المهام توليد مجموعات البيانات، وقياس أداء النموذج، وضبط النماذج، مما جعل العملية معقدة ومعرضة للأخطاء في كثير من الأحيان. يتيح تحديث تقطير النماذج للمطوّرين استخدام الاستكمالات المخزّنة، وهي أداة تتيح لهم توليد مجموعات البيانات تلقائيًا من خلال التقاط وتخزين أزواج المدخلات والمخرجات التي تنتجها النماذج المتقدمة من خلال واجهة برمجة التطبيقات.

تساعد خاصية أخرى من ميزات تقطير النماذج، وهي Evals (في الإصدار التجريبي حاليًا)، على قياس مدى جودة أداء النموذج في مهام محددة، دون الحاجة إلى إنشاء نصوص برمجية مخصصة للتقييم أو استخدام أدوات منفصلة. وباستخدام مجموعات البيانات التي تم إنشاؤها باستخدام الاستكمالات المخزنة وتقييم الأداء باستخدام Evals، يمكن للمطورين ضبط نماذج GPT المخصصة الخاصة بهم.

الشكل 3. يمكنك استخدام Evals لقياس أداء النموذج.

التخزين المؤقت الموجه

في كثير من الأحيان عند إنشاء تطبيقات الذكاء الاصطناعي، وخاصةً روبوتات الدردشة، سيتم استخدام نفس السياق (المعلومات الأساسية أو سجل المحادثة السابقة اللازمة لفهم الطلب الحالي) بشكل متكرر لمكالمات واجهة برمجة التطبيقات المتعددة. يتيح التخزين المؤقت للمطالب للمطورين إمكانية إعادة استخدام رموز الإدخال المستخدمة مؤخرًا (مقاطع نصية يعالجها النموذج لفهم المطالبة وإنشاء استجابة)، مما يساعد على تقليل التكلفة وزمن الاستجابة.

اعتبارًا من الأول من أكتوبر، طبقت OpenAI تلقائيًا خاصية التخزين المؤقت للمطالبات على نماذجها مثل GPT-4o و GPT-4o mini و o1-preview و o1-mini. هذا يعني أنه عندما يستخدم المطورون واجهة برمجة التطبيقات للتفاعل مع نموذج بمطالبة طويلة (أكثر من 1,024 رمزًا)، يحفظ النظام الأجزاء التي عالجها بالفعل. 

وبهذه الطريقة، إذا تم استخدام نفس المطالبات أو مطالبات مشابهة مرة أخرى، يمكنه تخطي إعادة حساب تلك الأجزاء. يقوم النظام تلقائيًا بتخزين أطول جزء من المطالبة التي واجهها سابقًا بشكل مؤقت، بدءًا من 1024 رمزًا وإضافة أجزاء من 128 رمزًا كلما أصبحت المطالبة أطول.

واجهة برمجة التطبيقات الفورية

يتضمن إنشاء مساعد صوتي بشكل عام الحاجة إلى تحويل الصوت إلى نص، ومعالجة النص، ثم تحويله مرة أخرى إلى صوت لتشغيل الرد. تهدف واجهة برمجة تطبيقات Realtime API الخاصة ب OpenAI إلى التعامل مع هذه العملية بأكملها بطلب واحد من واجهة برمجة التطبيقات. ومن خلال تبسيط العملية، تتيح واجهة برمجة التطبيقات إجراء محادثات في الوقت الفعلي مع الذكاء الاصطناعي. 

على سبيل المثال، يمكن للمساعد الصوتي المدمج مع واجهة برمجة التطبيقات في الوقت الفعلي تنفيذ إجراءات محددة، مثل تقديم طلب أو العثور على معلومات، بناءً على طلبات المستخدم. تجعل واجهة برمجة التطبيقات المساعد الصوتي أكثر استجابة وقدرة على التكيف بسرعة مع احتياجات المستخدمين. أصبحت واجهة برمجة التطبيقات Realtime API متاحة من خلال الإصدار التجريبي العام في الأول من أكتوبر، مع ستة أصوات. وفي 30 أكتوبر، تمت إضافة خمسة أصوات أخرى، ليصبح المجموع أحد عشر صوتاً متاحاً.

الشكل 4. مثال على استخدام Realtime API لممارسة المحادثات بلغة جديدة.

الضبط الدقيق ChatGPT لمهام الرؤية

في الأصل، لم يكن بالإمكان ضبط نموذج لغة الرؤية GPT-4o وتخصيصه إلا باستخدام مجموعات بيانات نصية فقط. والآن، مع إصدار واجهة برمجة تطبيقات الضبط الدقيق للرؤية، يمكن للمطورين تدريب GPT-4o وتخصيصه باستخدام مجموعات بيانات الصور. منذ إصداره، أصبح الضبط الدقيق للرؤية موضوعًا رئيسيًا يحظى باهتمام المطورين ومهندسي الرؤية الحاسوبية.

ولضبط قدرات الرؤية في GPT-4o، يمكن للمطورين استخدام مجموعات بيانات الصور التي تتراوح بين عدد قليل من الصور يصل إلى 100 صورة إلى ما يصل إلى 50000 صورة. بعد التأكد من تطابق مجموعة البيانات مع التنسيق المطلوب من قبل OpenAI، يمكن تحميلها إلى منصة Openai، ويمكن ضبط النموذج لتطبيقات محددة. 

على سبيل المثال، استخدمت شركة Automat، وهي شركة أتمتة، مجموعة بيانات من لقطات الشاشة لتدريب GPT-4o على تحديد عناصر واجهة المستخدم على الشاشة بناءً على الوصف. يساعد ذلك على تبسيط أتمتة العمليات الروبوتية (RPA) من خلال تسهيل تفاعل الروبوتات مع واجهات المستخدم. بدلاً من الاعتماد على الإحداثيات الثابتة أو قواعد التحديد المعقدة، يمكن للنموذج تحديد عناصر واجهة المستخدم استناداً إلى أوصاف بسيطة، مما يجعل إعدادات الأتمتة أكثر قابلية للتكيف وأسهل في الصيانة عند تغيير الواجهات.

الشكل 5. استخدام نسخة معدلة من نموذج GPT-4o للكشف عن عناصر واجهة المستخدم.

ChatGPT الإنصاف وكشف التحيز

تُعد المخاوف الأخلاقية المحيطة بتطبيقات الذكاء الاصطناعي موضوعًا بارزًا للنقاش مع تزايد تقدم الذكاء الاصطناعي. نظرًا لأن استجابات ChatGPT' تعتمد على المطالبات التي يقدمها المستخدم والبيانات المتاحة على الإنترنت، فقد يكون من الصعب ضبط لغته لتكون مسؤولة طوال الوقت. تشير التقارير إلى أن إجاباتChatGPT'متحيزة بشأن الاسم والجنس والعرق. ولمعالجة هذه المشكلة، أجرى فريق OpenAI الداخلي اختبارًا للإنصاف من منظور الشخص الأول.

غالبًا ما تحمل الأسماء إشارات خفية عن ثقافتنا وعوامل جغرافية. في معظم الحالات، يتجاهل ChatGPT الإشارات الخفية في الأسماء. ومع ذلك، في بعض الحالات، تؤدي الأسماء التي تعكس العرق أو الثقافة إلى استجابات مختلفة من ChatGPT ، حيث تعكس حوالي 1% منها لغة ضارة. يعد القضاء على التحيزات واللغة الضارة مهمة صعبة لنموذج اللغة. ومع ذلك، من خلال مشاركة هذه النتائج علنًا والاعتراف بمحدودية النموذج، يساعد OpenAI المستخدمين على تحسين مطالباتهم لتحقيق إجابات أكثر حيادية وغير متحيزة. 

الشكل 6. مثال على الاستجابات المختلفة بسبب اسم المستخدم.

فهم ChatGPT البحث

عندما تم إطلاق ChatGPT لأول مرة، كانت هناك مناقشات في مجتمع الذكاء الاصطناعي حول ما إذا كان يمكن أن يحل محل التصفح التقليدي للويب. والآن، يستخدم العديد من المستخدمين ChatGPT بدلاً من Google Search

ويأخذ التحديث الجديد لـ OpenAI، وهو ميزة البحث، هذا الأمر خطوة إلى الأمام. من خلال ميزة البحث، تقوم ChatGPT بإنشاء ردود محدثة وتتضمن روابط لمصادر ذات صلة. اعتبارًا من 31 أكتوبر، أصبحت ميزة البحث متاحة لجميع مستخدمي ChatGPT Plus و Team، مما يجعل وظيفة ChatGPT أشبه بمحرك بحث مدعوم بالذكاء الاصطناعي.

الشكل 7. مثال على استخدام ميزة البحث الجديدة ChatGPT.

الطريق إلى الأمام

ChatGPTتركز التحديثات الأخيرة على جعل الذكاء الاصطناعي أكثر فائدة ومرونة وإنصافًا. تساعد ميزة Canvas الجديدة المستخدمين على العمل بشكل أكثر كفاءة، بينما يتيح الضبط الدقيق للرؤية للمطورين تخصيص النماذج للتعامل مع المهام المرئية بشكل أفضل. تُعد معالجة الإنصاف والحد من التحيز من الأولويات الرئيسية أيضاً، مما يضمن عمل الذكاء الاصطناعي بشكل جيد للجميع، بغض النظر عن هويتهم. سواء كنت مطورًا يقوم بضبط النماذج بدقة أو مجرد استخدام أحدث الميزات، فإن ChatGPT يتطور لتلبية مجموعة واسعة من الاحتياجات. بفضل إمكانات الوقت الحقيقي، والتكامل المرئي، والتركيز على الاستخدام المسؤول، تعمل هذه التحديثات على بناء تجربة ذكاء اصطناعي أكثر جدارة بالثقة والموثوقية للجميع.

استكشف المزيد عن الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. تعرّف على المزيد حول تطبيقات الذكاء الاصطناعي في القيادة الذاتية والرعاية الصحية.

شعار الفيسبوكشعار تويترشعار لينكد إنرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي