Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

نموذج متعدد الوسائط (Multi-Modal Model)

اكتشف كيف تدمج النماذج متعددة الوسائط النصوص والصور والصوت. تعرف على بنى مثل Ultralytics ونشر الذكاء الاصطناعي البصري على Ultralytics .

النموذج متعدد الوسائط هو نوع متقدم من أنظمة الذكاء الاصطناعي (AI) القادر على معالجة وتفسير ودمج المعلومات من أنواع مختلفة من البيانات، أو "الوسائط"، في وقت واحد. في حين أن الأنظمة التقليدية أحادية الوسائط تتخصص في مجال واحد، مثل معالجة اللغة الطبيعية (NLP) للنصوص أو الرؤية الحاسوبية (CV) للصور ، تهدف النماذج متعددة الوسائط إلى محاكاة الإدراك البشري من خلال توليف الإشارات البصرية والسمعية واللغوية معًا. يتيح هذا التلاقي للنموذج تطوير فهم شامل للعالم، مما يمكّنه من استخلاص علاقات معقدة بين المشهد البصري والوصف اللفظي. تعتبر هذه القدرات خطوات أساسية نحو تحقيق الذكاء الاصطناعي العام (AGI).

الآليات الأساسية والبنية

تعتمد فعالية النموذج متعدد الوسائط على قدرته على تخطيط أنواع البيانات المتنوعة في مساحة دلالية مشتركة. تبدأ هذه العملية عادةً بإنشاء تضمينات، وهي تمثيلات رقمية تلتقط المعنى الأساسي للبيانات المدخلة. من خلال التدريب على مجموعات بيانات ضخمة من الأمثلة المزدوجة، مثل مقاطع الفيديو مع الترجمة، يتعلم النموذج مواءمة التمثيل المتجه لصورة "قطة" مع التضمين النصي لكلمة "قطة".

هناك عدة مفاهيم معمارية أساسية تجعل هذا التكامل ممكناً:

  • بنية المحول: تستخدم العديد من الأنظمة متعددة الوسائط محولات، والتي تستخدم آليات الانتباه لتقييم أهمية أجزاء الإدخال المختلفة بشكل ديناميكي. وهذا يسمح للنموذج بالتركيز على مناطق معينة من الصورة تتوافق مع الكلمات ذات الصلة في موجه النص، وهو مفهوم مفصل في ورقة البحث الرائدة "الانتباه هو كل ما تحتاجه".
  • دمج البيانات: يشير هذا إلى استراتيجية دمج المعلومات من مصادر مختلفة. يمكن أن يحدث دمج المستشعرات في وقت مبكر عن طريق دمج البيانات الأولية أو في وقت متأخر عن طريق دمج قرارات النماذج الفرعية المنفصلة. يمكن أن تساعد الأطر الحديثة مثل PyTorch المرونة اللازمة لبناء هذه الخطوط المعقدة.
  • التعلم التبايني: تقنيات تستخدمها نماذج مثل CLIP من OpenAI لتدريب النظام على تقليل المسافة بين أزواج النصوص والصور المتطابقة في الفضاء المتجه مع زيادة المسافة بين الأزواج غير المتطابقة إلى أقصى حد.

تطبيقات واقعية

لقد فتحت النماذج متعددة الوسائط إمكانيات كان من المستحيل تحقيقها في السابق باستخدام الأنظمة أحادية الوسيلة.

  • الإجابة على الأسئلة المرئية (VQA): تسمح هذه الأنظمة للمستخدمين بطرح أسئلة باللغة الطبيعية حول صورة ما. على سبيل المثال، قد يقوم مستخدم ضعيف البصر بتحميل صورة لمخزن طعام ويسأل: "هل توجد علبة حساء على الرف العلوي؟" يستخدم النموذج اكتشاف الكائنات لتحديد العناصر و NLP لفهم الاستعلام، مما يوفر إجابة مفيدة.
  • المركبات ذاتية القيادة: تعمل السيارات ذاتية القيادة كوكلاء متعددي الوسائط في الوقت الفعلي. فهي تجمع بين الصور المرئية من الكاميرات ومعلومات العمق من LiDAR وبيانات السرعة من الرادار. ويضمن هذا التكرار أنه في حالة تعرض أحد أجهزة الاستشعار لعرقلة بسبب الطقس، يمكن للأجهزة الأخرى الحفاظ على سلامة الطريق.
  • الكشف عن المفردات المفتوحة: تسمح نماذج مثل Ultralytics YOLO للمستخدمين detect باستخدام مطالبات نصية عشوائية بدلاً من قائمة ثابتة من الفئات. وهذا يسد الفجوة بين الأوامر اللغوية والتعرف البصري.

مثال: الكشف عن المفردات المفتوحة

يوضح المثال التالي كيفية استخدام ultralytics مكتبة لإجراء الكشف عن المفردات المفتوحة ، حيث يفسر النموذج المطالبات النصية لتحديد الكائنات في الصورة:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

الفروق عن المصطلحات ذات الصلة

من المفيد التمييز بين "النموذج متعدد الوسائط" والمفاهيم ذات الصلة في مسرد مصطلحات الذكاء الاصطناعي:

  • التعلم متعدد الوسائط: يشير هذا إلى العملية وتقنيات التعلم الآلي (ML) المستخدمة لتدريب هذه الأنظمة. النموذج متعدد الوسائط هو الناتج أو المنتج البرمجي الناتج عن عملية التعلم تلك.
  • نماذج اللغة الكبيرة (LLMs): تقوم نماذج اللغة الكبيرة التقليدية بمعالجة النصوص فقط. في حين أن العديد منها يتطور إلى نماذج الرؤية واللغة (VLMs)، فإن نموذج اللغة الكبيرة القياسي أحادي الوضع.
  • نماذج الأساس: هذه فئة أوسع تصف النماذج واسعة النطاق القابلة للتكيف مع العديد من المهام النهائية. في حين أن النموذج متعدد الوسائط غالبًا ما يكون نموذجًا أساسيًا، إلا أن نماذج الأساس لا تتعامل جميعها مع وسائط متعددة.

مستقبل الذكاء الاصطناعي متعدد الوسائط

يتقدم هذا المجال بسرعة نحو أنظمة قادرة على معالجة تدفقات مستمرة من الصوت والفيديو والنص في الوقت الفعلي. وتواصل الأبحاث التي تجريها مؤسسات مثل Google توسيع حدود الإدراك الآلي. في Ultralytics ندعم هذا النظام البيئي بواسطة أعمدة رؤية عالية الأداء مثل YOLO26. تم إصدار YOLO26 في عام 2026، ويوفر سرعة ودقة فائقتين لمهام مثل تجزئة الحالات، حيث يعمل كمكون بصري فعال في خطوط أنابيب متعددة الوسائط أكبر حجمًا. يمكن للمطورين إدارة البيانات والتدريب والنشر لهذه التدفقات المعقدة باستخدام Ultralytics الموحدة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن