Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

GPT (محول توليدي مُدرَّب مسبقًا)

استكشف أساسيات GPT (Generative Pre-trained Transformer). تعرف على كيفية عمل هذه النماذج وكيفية دمجها مع Ultralytics للرؤية.

يشير GPT (Generative Pre-trained Transformer) إلى مجموعة من نماذج الشبكات العصبية المصممة لتوليد نصوص شبيهة بالبشرية وحل المهام المعقدة من خلال توقع العنصر التالي في تسلسل ما. تم بناء هذه النماذج على بنية Transformer، باستخدام كتل فك التشفير التي تسمح لها بمعالجة البيانات بشكل متوازٍ بدلاً من معالجتها بشكل تسلسلي. يشير مصطلح "Pre-trained" إلى أن النموذج يخضع لمرحلة أولية من التعلم غير الخاضع للإشراف على مجموعات بيانات ضخمة —تشمل الكتب والمقالات والمواقع الإلكترونية—لتعلم البنية الإحصائية للغة. يشير مصطلح "Generative" إلى القدرة الأساسية للنموذج: إنشاء محتوى جديد بدلاً من مجرد تصنيف المدخلات الموجودة.

البنية الأساسية والوظائف الأساسية

في قلب نموذج GPT يكمن آلية الانتباه، وهي تقنية رياضية تسمح للشبكة بتقييم أهمية الكلمات المختلفة في الجملة بالنسبة لبعضها البعض. تتيح هذه الآلية للنموذج فهم السياق والفروق الدقيقة والتبعيات بعيدة المدى، مثل معرفة أن الضمير في نهاية الفقرة يشير إلى اسم مذكور في البداية.

بعد التدريب الأولي، تخضع هذه النماذج عادةً للتحسين لتخصيصها لمهام محددة أو لمواءمتها مع القيم الإنسانية. غالبًا ما تُستخدم تقنيات مثل التعلم المعزز من ردود فعل البشر (RLHF) لضمان أن النموذج ينتج استجابات آمنة ومفيدة ودقيقة. هذه العملية المكونة من خطوتين — التدريب المسبق العام متبوعًا بضبط دقيق محدد — هي ما يجعل نماذج GPT نماذج أساسية متعددة الاستخدامات .

تطبيقات واقعية

لقد تجاوزت نماذج GPT مرحلة البحث النظري لتصبح أدوات عملية يومية في مختلف الصناعات.

  • مساعدو الترميز الذكيون: يستخدم المطورون أدوات مدعومة بتقنية GPT لكتابة البرامج وتصحيحها وتوثيقها. يقوم وكلاء الذكاء الاصطناعي هؤلاء بتحليل سياق مستودع الكود لاقتراح وظائف كاملة أو تحديد الأخطاء، مما يسرع بشكل كبير من دورة حياة التطوير .
  • أتمتة خدمة العملاء: تستخدم روبوتات الدردشة الحديثة GPT للتعامل مع استفسارات العملاء المعقدة . على عكس الأنظمة القديمة القائمة على القواعد، يمكن لهذه المساعدات الافتراضية فهم النية، الاحتفاظ بسجل المحادثات، وتوليد ردود مخصصة في الوقت الفعلي.

دمج GPT مع الرؤية الحاسوبية

بينما يتفوق GPT في معالجة اللغة الطبيعية (NLP)، غالبًا ما يتم دمجه مع الرؤية الحاسوبية (CV) لإنشاء أنظمة متعددة الوسائط . يتضمن سير العمل الشائع استخدام كاشف عالي السرعة مثل Ultralytics لتحديد الكائنات في الصورة، ثم تغذية هذا الناتج المنظم في نموذج GPT لإنشاء سرد وصفي.

يوضح المثال التالي كيفية استخراج أسماء الكائنات باستخدام YOLO26 لإنشاء سلسلة سياق لموجه GPT :

from ultralytics import YOLO

# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to construct a text description
class_names = [model.names[int(cls)] for cls in results[0].boxes.cls]

# This string serves as the context for a GPT prompt
print(f"Detected objects for GPT context: {', '.join(class_names)}")

المفاهيم ذات الصلة والتمايز

من المفيد التمييز بين GPT والبنى الشائعة الأخرى لفهم دورها المحدد.

  • GPT مقابل BERT: كلاهما يستخدم بنية Transformer، لكنهما يختلفان في الاتجاهية. BERT (تمثيلات التشفير ثنائية الاتجاه من المحولات) هو نموذج تشفير فقط ينظر إلى السياق من اليسار واليمين في وقت واحد، مما يجعله مثاليًا لمهام مثل التصنيف وتحليل المشاعر. GPT هو نموذج فك تشفير فقط يتنبأ بالرمز التالي بناءً على الرموز السابقة، مما يحسنه من أجل إنشاء النصوص.
  • GPT مقابل LLM: مصطلح نموذج اللغة الكبير (LLM) هو مصطلح عام للنماذج الضخمة التي تم تدريبها على كميات هائلة من النصوص. GPT هو بنية محددة وعلامة تجارية لـ LLM، تم تطويرها بشكل بارز بواسطة OpenAI.

التحديات والتوقعات المستقبلية

على الرغم من قدراتها المذهلة، تواجه نماذج GPT تحديات مثل الهلوسة، حيث تقوم بثقة بإنتاج معلومات خاطئة. يعمل الباحثون بنشاط على تحسين أخلاقيات الذكاء الاصطناعي وبروتوكولات السلامة. علاوة على ذلك، فإن دمج GPT مع أدوات مثل Ultralytics يسمح بإنشاء خطوط إنتاج أكثر قوة حيث تعمل نماذج الرؤية واللغة بشكل متناسق لحل المشكلات المعقدة في العالم الحقيقي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن