استكشف GPT-4، النموذج متعدد الوسائط من OpenAI. تعرف على بنيته، وطريقة تفكيره، وكيفية اقترانه بـ Ultralytics لتطبيقات الرؤية المتقدمة بالذكاء الاصطناعي.
GPT-4 (Generative Pre-trained Transformer 4) هو نموذج متعدد الوسائط متطور طورته OpenAI ويحسن بشكل كبير قدرات الذكاء الاصطناعي. باعتباره نموذجًا متعدد الوسائط كبيرًا (LMM)، يختلف GPT-4 عن أسلافه التي تعتمد على النص فقط من خلال قبول مدخلات الصور والنصوص لإنشاء مخرجات نصية. تسمح هذه القفزة المعمارية له بإظهار أداء على مستوى الإنسان في مختلف المعايير المهنية والأكاديمية، مما يجعله تقنية أساسية في مجال معالجة اللغة الطبيعية (NLP) وما بعدها. من خلال سد الفجوة بين الفهم البصري والاستدلال اللغوي، يدعم GPT-4 مجموعة واسعة من التطبيقات، من مساعدات الترميز المتقدمة إلى أدوات تحليل البيانات المعقدة.
تم بناء بنية GPT-4 على أساس إطار عمل Transformer، باستخدام آليات التعلم العميق لتوقع الرمز التالي في التسلسل. ومع ذلك، فإن نطاق التدريب ومنهجيته يتيحان مزايا واضحة مقارنة بالإصدارات السابقة.
تسهل تعددية استخدامات GPT-4 دمجها في قطاعات متنوعة، مما يعزز الإنتاجية ويتيح أشكالًا جديدة من التفاعل.
على الرغم من أن GPT-4 يمتلك قدرات بصرية، إلا أنه يختلف عن نماذج الرؤية الحاسوبية (CV) المتخصصة المصممة للعمل بسرعة في الوقت الفعلي. GPT-4 هو نظام استدلال عام، في حين أن نماذج مثل YOLO26 مُحسّنة للكشف عن الأجسام وتقسيمها بسرعة عالية .
في العديد من وكلاء الذكاء الاصطناعي الحديثين، يتم الجمع بين هذه التقنيات. يمكن YOLO التعرف بسرعة على الكائنات في دفق الفيديو وإدراجها في قائمة بزمن انتقال يبلغ أجزاء من الثانية. ثم يتم تمرير هذه البيانات المنظمة إلى GPT-4، الذي يمكنه استخدام قدراته الاستدلالية لإنشاء سرد أو تقرير أمان أو قرار استراتيجي بناءً على العناصر المكتشفة.
يوضح المثال التالي كيفية استخدام ultralytics detect ، وإنشاء قائمة منظمة
يمكن أن تكون بمثابة موجه غني بالسياق لـ GPT-4.
from ultralytics import YOLO
# Load the YOLO26 model for real-time object detection
model = YOLO("yolo26n.pt")
# Perform inference on an image source
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names for downstream processing
class_ids = results[0].boxes.cls.tolist()
detected_objects = [results[0].names[int(cls_id)] for cls_id in class_ids]
# This list can be formatted as a prompt for GPT-4 to describe the scene context
print(f"Detected items for GPT-4 input: {detected_objects}")
لفهم طبيعة النماذج التوليدية، لا بد من التمييز بين GPT-4 والمفاهيم المماثلة:
على الرغم من قدراته المذهلة، فإن GPT-4 ليس خالياً من القيود. لا يزال بإمكانه إنتاج أخطاء واقعية، كما أن تدريبه على مجموعات بيانات الإنترنت الضخمة يمكن أن يؤدي عن غير قصد إلى إعادة إنتاج التحيز في الذكاء الاصطناعي. لا تزال معالجة هذه المخاوف الأخلاقية أولوية بالنسبة لمجتمع الباحثين. علاوة على ذلك، فإن التكلفة الحسابية الهائلة لتشغيل مثل هذه النماذج الكبيرة قد أثارت الاهتمام بتكمية النماذج وتقطيرها لجعل الذكاء الاصطناعي القوي أكثر سهولة وكفاءة.
بالنسبة لأولئك الذين يسعون إلى إنشاء مجموعات بيانات لتدريب أو ضبط نماذج أصغر حجماً ومتخصصة إلى جانب برامج استدلال كبيرة مثل GPT-4، توفر أدوات مثل Ultralytics حلولاً شاملة لإدارة البيانات ونشر النماذج.