مسرد المصطلحات

التعلّم متعدد الوسائط

اكتشف قوة التعلم متعدد الوسائط في الذكاء الاصطناعي! استكشف كيف تدمج النماذج أنواعاً متنوعة من البيانات من أجل حل مشاكل أكثر ثراءً في العالم الحقيقي.

التعلم متعدد الوسائط هو مجال فرعي للذكاء الاصطناعي (AI) والتعلم الآلي (ML) يركز على تصميم وتدريب النماذج التي يمكنها معالجة ودمج المعلومات من أنواع بيانات متعددة ومختلفة، والمعروفة باسم الطرائق. تشمل الطرائق الشائعة النصوص، والصور(الرؤية الحاسوبية)، والصوت(التعرف على الكلام)، والفيديو، وبيانات المستشعرات (مثل بيانات الليدار أو قراءات درجة الحرارة). يتمثل الهدف الأساسي للتعلم متعدد الوسائط في بناء أنظمة ذكاء اصطناعي قادرة على فهم أكثر شمولية وشمولية شبيهة بالفهم البشري للسيناريوهات المعقدة من خلال الاستفادة من المعلومات التكميلية الموجودة عبر مصادر البيانات المختلفة.

التعريف والمفاهيم الأساسية

يتضمن التعلم متعدد الوسائط خوارزميات التدريب لفهم العلاقات والارتباطات بين أنواع مختلفة من البيانات. وبدلاً من تحليل كل طريقة بمعزل عن الأخرى، تركز عملية التعلّم على تقنيات الجمع بين المعلومات أو دمجها بفعالية. تتضمن المفاهيم الرئيسية ما يلي:

  • دمج المعلومات: يشير هذا إلى الطرق المستخدمة لدمج المعلومات من طرائق مختلفة. يمكن أن يحدث الدمج في مراحل مختلفة: في مرحلة مبكرة (الجمع بين البيانات الأولية)، أو في مرحلة وسيطة (الجمع بين السمات المستخرجة من كل طريقة)، أو في مرحلة متأخرة (الجمع بين مخرجات النماذج المنفصلة المدربة على كل طريقة). يعد الدمج الفعال للمعلومات أمرًا بالغ الأهمية للاستفادة من نقاط القوة في كل نوع من أنواع البيانات.
  • التعلم متعدد الوسائط: ويتضمن ذلك تعلم التمثيلات حيث يمكن استخدام المعلومات من إحدى الطرائق لاستنتاج أو استرجاع المعلومات من طريقة أخرى (على سبيل المثال، توليد تعليقات نصية من الصور).
  • محاذاة البيانات: التأكد من مطابقة أجزاء المعلومات المتناظرة عبر الطرائق المختلفة بشكل صحيح (على سبيل المثال، محاذاة الكلمات المنطوقة في مسار صوتي مع الإطارات المرئية المقابلة في الفيديو). غالبًا ما تكون محاذاة البيانات بشكل صحيح شرطًا أساسيًا للدمج الفعال.

يعتمد التعلم متعدد الوسائط اعتمادًا كبيرًا على تقنيات من التعلم العميق (DL)، باستخدام بنيات مثل المحولات والشبكات العصبية التلافيفية (CNNs ) التي تم تكييفها للتعامل مع المدخلات المتنوعة، وغالبًا ما تستخدم أطر عمل مثل PyTorch(الموقع الرسمي PyTorch) أو TensorFlow(الموقع الرسمي TensorFlow).

الملاءمة والتطبيقات

تنبع أهمية التعلّم متعدد الوسائط من قدرته على إنشاء أنظمة ذكاء اصطناعي أكثر قوة وتنوعاً قادرة على معالجة المشاكل المعقدة في العالم الحقيقي حيث تكون المعلومات بطبيعتها متعددة الأوجه. تستفيد العديد من نماذج الذكاء الاصطناعي المتقدمة اليوم، بما في ذلك النماذج التأسيسية الكبيرة، من القدرات متعددة الوسائط.

فيما يلي بعض الأمثلة الملموسة لكيفية تطبيق التعلم متعدد الوسائط:

تشمل التطبيقات المهمة الأخرى القيادة الذاتية(الذكاء الاصطناعي في السيارات ذاتية القيادة)، حيث يتم دمج البيانات من الكاميرات والليدار والرادار من قبل شركات مثل Waymo، وتحليل الصور الطبية التي تجمع بين بيانات التصوير وسجلات المرضى، وتطبيقات الذكاء الاصطناعي في الروبوتات، حيث تدمج الروبوتات المعلومات البصرية والسمعية واللمسية للتفاعل مع بيئتها(الروبوتات).

الفروق الرئيسية

من المفيد التمييز بين التعلم متعدد الوسائط والمصطلحات ذات الصلة:

  • النماذج متعددة الوسائط: التعلم متعدد النماذج هو العملية أو مجال الدراسة المعني بتدريب الذكاء الاصطناعي باستخدام أنواع متعددة من البيانات. النماذج متعددة النماذج هي أنظمة أو بنى الذكاء الاصطناعي الناتجة التي تم تصميمها وتدريبها باستخدام هذه التقنيات.
  • الرؤية الحاسوبية (CV): تركز السيرة الذاتية حصريًا على معالجة البيانات المرئية وفهمها (الصور ومقاطع الفيديو). أما التعلّم متعدد الوسائط فيتجاوز نطاق السيرة الذاتية من خلال دمج البيانات المرئية مع طرائق أخرى مثل النصوص أو الصوت.
  • معالجة اللغة الطبيعية (NLP): تتعامل البرمجة اللغوية العصبية مع فهم وتوليد اللغة البشرية (النص والكلام). أما التعلم متعدد الوسائط فيدمج بيانات اللغة مع طرائق أخرى مثل الصور أو قراءات أجهزة الاستشعار.
  • النماذج التأسيسية: وهي نماذج واسعة النطاق تم تدريبها مسبقاً على كميات هائلة من البيانات، وغالباً ما تكون مصممة لتكون قابلة للتكيف مع مختلف المهام النهائية. وتتضمن العديد من النماذج التأسيسية الحديثة، مثل نموذج GPT-4، قدرات متعددة الوسائط، ولكن المفاهيم مختلفة؛ فالتعلم متعدد الوسائط هو منهجية غالباً ما تُستخدم في بناء هذه النماذج القوية.

التحديات والتوجهات المستقبلية

يطرح التعلّم متعدد الوسائط تحديات فريدة من نوعها، بما في ذلك مواءمة البيانات من مصادر مختلفة بشكل فعال، وتطوير استراتيجيات الدمج المثلى، والتعامل مع البيانات المفقودة أو المشوشة في طريقة أو أكثر. لا تزال معالجة هذه التحديات في التعلّم متعدد الوسائط مجالاً نشطاً للبحث.

يتطور هذا المجال بسرعة، مما يدفع الحدود نحو أنظمة الذكاء الاصطناعي التي تدرك العالم وتفكر فيه كما يفعل البشر، مما قد يساهم في تطوير الذكاء الاصطناعي العام (AGI). في حين أن منصات مثل Ultralytics HUB تسهّل حاليًا سير العمل الذي يركز بشكل أساسي على مهام الرؤية الحاسوبية باستخدام نماذج مثل Ultralytics YOLO (على سبيل المثال، Ultralytics YOLOv8) لاكتشاف الأشياء، يشير مشهد الذكاء الاصطناعي الأوسع نطاقًا إلى زيادة تكامل القدرات متعددة الوسائط. تابع مدونة Ultralytics للحصول على تحديثات حول إمكانات النماذج والتطبيقات الجديدة. للحصول على نظرة عامة أوسع على هذا المجال، تقدم صفحة ويكيبيديا عن التعلم متعدد الوسائط المزيد من القراءة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة