تمثل النماذج التأسيسية نقلة نوعية كبيرة في مجال الذكاء الاصطناعي (AI)، حيث تتميز بنطاقها الهائل وتدريبها على مجموعات بيانات واسعة ومتنوعة. على عكس نماذج التعلم الآلي التقليدية المصممة لمهام محددة، يتم تدريب النماذج التأسيسية مسبقًا على بيانات واسعة، مما يتيح تكييفها - أو ضبطها بدقة- لمجموعة واسعة من التطبيقات النهائية مع القليل نسبيًا من البيانات الخاصة بمهمة محددة. ويسرّع هذا النهج، الذي غالباً ما يستفيد من التعلّم التحوّلي، من عملية تطوير الذكاء الاصطناعي ويجعل القدرات القوية أكثر سهولة. وقد تم تعميم هذا المصطلح من قبل معهد ستانفورد للذكاء الاصطناعي الذي يركز على الإنسان (HAI).
الخصائص الأساسية للنماذج التأسيسية
يتم تعريف النماذج التأسيسية بثلاث خصائص أساسية: النطاق والعمومية والقدرة على التكيف.
- النطاق: يتم تدريبها على مجموعات بيانات على نطاق الويب تحتوي على نصوص وصور ورموز وأنواع أخرى من البيانات، وغالبًا ما تتضمن مليارات أو تريليونات من نقاط البيانات. وعادةً ما تحتوي على مليارات المعلمات، مما يتطلب موارد حاسوبية كبيرة (GPU) للتدريب.
- العمومية: يُضفي التدريب المسبق المكثف على هذه النماذج فهماً واسعاً للأنماط وبناء الجملة والدلالات والسياق ضمن بيانات التدريب الخاصة بها. وهذا يسمح لها بالأداء الجيد في المهام التي لم يتم تدريبها عليها بشكل صريح، وأحيانًا من خلال التعلم من دون أي لقطات أو التعلم من لقطات قليلة.
- القدرة على التكيف: تكمن قوتها الأساسية في قدرتها على التكيف مع مهام محددة من خلال الضبط الدقيق. يتضمن ذلك تدريبًا إضافيًا على مجموعة بيانات أصغر حجمًا ومحددة المهام، مما يقلل بشكل كبير من البيانات والوقت المطلوب مقارنةً بتدريب نموذج من الصفر. يشيع استخدام بنيات مثل المحولات، المعروفة بالتعامل مع البيانات المتسلسلة والتقاط التبعيات بعيدة المدى، خاصةً في معالجة اللغات الطبيعية (NLP ) وبشكل متزايد في مجال الرؤية الحاسوبية (CV).
التطبيقات والأمثلة
تعدد استخدامات نماذج المؤسسات يدفع الابتكار في العديد من المجالات.
- معالجة اللغات الطبيعية: تتفوق النماذج مثل GPT-4 و BERT في مهام مثل توليد النصوص والترجمة والتلخيص وتشغيل روبوتات الدردشة الآلية المتطورة. على سبيل المثال، قد تقوم إحدى شركات خدمة العملاء بضبط نموذج لغوي مُدرَّب مسبقاً مثل BERT على تذاكر الدعم الخاصة بها لبناء نظام داخلي عالي الدقة للإجابة على الأسئلة.
- الرؤية الحاسوبية: تتعامل النماذج التأسيسية للرؤية مثل CLIP (التدريب المسبق على اللغة المتباينة للصور) ونموذج تقسيم أي شيء (SAM) مع مهام مثل تصنيف الصور واكتشاف الأجسام وتجزئة الصور. على سبيل المثال، يمكن لشركة تكنولوجيا زراعية تكييف SAM من خلال ضبطه على صور الطائرات بدون طيار لتقسيم أنواع المحاصيل المختلفة بدقة أو تحديد المناطق المصابة بالأمراض، مما يتطلب بيانات أقل بكثير من البيانات المصنفة مقارنةً بمناهج التعلم التقليدية الخاضعة للإشراف.
- تطبيقات متعددة الوسائط: يتم تدريب النماذج بشكل متزايد على أنواع متعددة من البيانات (على سبيل المثال، النصوص والصور)، مما يتيح مهام مثل توليد الصور من الأوصاف النصية(تحويل النص إلى صورة) أو الإجابة عن أسئلة حول الصور.
النماذج التأسيسية مقابل النماذج التقليدية
يكمن الاختلاف الأساسي في النطاق وقابلية إعادة الاستخدام. عادةً ما يتم تدريب نماذج التعلم الآلي التقليدية على مهمة واحدة محددة باستخدام مجموعة بيانات مخصصة. إذا ظهرت مهمة جديدة، فغالبًا ما يلزم بناء نموذج جديد وتدريبه من الصفر. ومع ذلك، توفر النماذج التأسيسية قاعدة قابلة لإعادة الاستخدام. حيث يلتقط تدريبها المسبق الواسع المعرفة العامة، والتي يمكن بعد ذلك تخصيصها بكفاءة.
ويوفر هذا النموذج مزايا مثل تقليل الحاجة إلى جمع البيانات والتعليقات التوضيحية المكثفة لكل مهمة جديدة واحتمال نشر النموذج بشكل أسرع. ومع ذلك، تشمل التحديات التكلفة الحسابية الهائلة والطاقة اللازمة للتدريب المسبق، وخطر توريث وتضخيم التحيزات الموجودة في بيانات التدريب، والاعتبارات الأخلاقية الهامة المتعلقة بسوء الاستخدام المحتمل وتأثيرها المجتمعي. تهدف منصات مثل Ultralytics HUB إلى تبسيط عملية الوصول إلى نماذج الذكاء الاصطناعي المتقدمة وتدريبها ونشرها، مما يساعد المستخدمين على الاستفادة من هذه التقنيات القوية بفعالية.