اكتشف كيف تدمج النماذج متعددة الوسائط النصوص والصور والصوت. تعرف على بنى مثل Ultralytics ونشر الذكاء الاصطناعي البصري على Ultralytics .
النموذج متعدد الوسائط هو نوع متقدم من أنظمة الذكاء الاصطناعي (AI) القادر على معالجة وتفسير ودمج المعلومات من أنواع مختلفة من البيانات، أو "الوسائط"، في وقت واحد. في حين أن الأنظمة التقليدية أحادية الوسائط تتخصص في مجال واحد، مثل معالجة اللغة الطبيعية (NLP) للنصوص أو الرؤية الحاسوبية (CV) للصور ، تهدف النماذج متعددة الوسائط إلى محاكاة الإدراك البشري من خلال توليف الإشارات البصرية والسمعية واللغوية معًا. يتيح هذا التلاقي للنموذج تطوير فهم شامل للعالم، مما يمكّنه من استخلاص علاقات معقدة بين المشهد البصري والوصف اللفظي. تعتبر هذه القدرات خطوات أساسية نحو تحقيق الذكاء الاصطناعي العام (AGI).
تعتمد فعالية النموذج متعدد الوسائط على قدرته على تخطيط أنواع البيانات المتنوعة في مساحة دلالية مشتركة. تبدأ هذه العملية عادةً بإنشاء تضمينات، وهي تمثيلات رقمية تلتقط المعنى الأساسي للبيانات المدخلة. من خلال التدريب على مجموعات بيانات ضخمة من الأمثلة المزدوجة، مثل مقاطع الفيديو مع الترجمة، يتعلم النموذج مواءمة التمثيل المتجه لصورة "قطة" مع التضمين النصي لكلمة "قطة".
هناك عدة مفاهيم معمارية أساسية تجعل هذا التكامل ممكناً:
لقد فتحت النماذج متعددة الوسائط إمكانيات كان من المستحيل تحقيقها في السابق باستخدام الأنظمة أحادية الوسيلة.
يوضح المثال التالي كيفية استخدام ultralytics مكتبة لإجراء الكشف عن المفردات المفتوحة
، حيث يفسر النموذج المطالبات النصية لتحديد الكائنات في الصورة:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
من المفيد التمييز بين "النموذج متعدد الوسائط" والمفاهيم ذات الصلة في مسرد مصطلحات الذكاء الاصطناعي:
يتقدم هذا المجال بسرعة نحو أنظمة قادرة على معالجة تدفقات مستمرة من الصوت والفيديو والنص في الوقت الفعلي. وتواصل الأبحاث التي تجريها مؤسسات مثل Google توسيع حدود الإدراك الآلي. في Ultralytics ندعم هذا النظام البيئي بواسطة أعمدة رؤية عالية الأداء مثل YOLO26. تم إصدار YOLO26 في عام 2026، ويوفر سرعة ودقة فائقتين لمهام مثل تجزئة الحالات، حيث يعمل كمكون بصري فعال في خطوط أنابيب متعددة الوسائط أكبر حجمًا. يمكن للمطورين إدارة البيانات والتدريب والنشر لهذه التدفقات المعقدة باستخدام Ultralytics الموحدة.