شيك أخضر
تم نسخ الرابط إلى الحافظة

ميتا فيلم جين: إعادة تخيل إنشاء المحتوى

شاهد كيف يعيد Meta Movie Gen تعريف إنشاء الفيديو والصوت. تعرّف على كيفية تقديم هذا النموذج تحريرًا دقيقًا للفيديو ودعم إنشاء الوسائط المخصصة.

سواء كنت صانع أفلام طموحًا أو منشئ محتوى يستمتع بصنع مقاطع فيديو لجمهورك، فإن امتلاك أدوات الذكاء الاصطناعي التي توسع نطاق إبداعك مفيد دائمًا. أطلقت Meta مؤخرًا أحدث نماذجها التوليدية للفيديو، والمعروف باسم Meta Movie Gen. 

من المتوقع أن تصل قيمة سوق الذكاء الاصطناعي التوليدي العالمي في مجال الإعلام والترفيه إلى 11.57 مليار دولار بحلول عام 2033، حيث تتصدر شركات مثل Runway وOpenAI وMeta الابتكارات الرائدة. تُعد Meta Movie Gen، على وجه الخصوص، رائعة لتطبيقات مثل صناعة الأفلام وإنشاء محتوى الفيديو ورواية القصص الرقمية، مما يجعل من السهل أكثر من أي وقت مضى إضفاء الحيوية على الرؤى الإبداعية من خلال مقاطع الفيديو عالية الجودة التي يتم إنشاؤها باستخدام الذكاء الاصطناعي. في هذه المقالة، سنستكشف في هذه المقالة ميتا موفي جين وكيفية عمله. كما سنلقي نظرة فاحصة على بعض تطبيقاته. هيا بنا نبدأ!

الشكل 1. إطار من مقطع فيديو تم إنشاؤه باستخدام Meta Movie Gen.

ما هو Meta Movie Gen؟

قبل أن نناقش ما هو Meta Movie Gen، دعنا نلقي نظرة على كيفية ظهوره. 

بدأت جهود ميتا البحثية المتعلقة بالذكاء الاصطناعي التوليدي من خلال سلسلة نماذج "اصنع مشهداً ". يركز هذا البحث على طريقة الذكاء الاصطناعي التوليدي متعدد الوسائط التي تساعد الفنانين وأصحاب الرؤى على إحياء خيالهم. يمكن للفنانين إدخال الصور أو الصوت أو مقاطع الفيديو أو الرسوم المتحركة ثلاثية الأبعاد للحصول على مخرجات الصورة التي يرغبون فيها. جاءت القفزة التالية في الابتكار مع نماذج الانتشار مثل نماذج مؤسسة لاما للصور(Emu)، والتي أتاحت إمكانية توليد صور ومقاطع فيديو بجودة أعلى بكثير ومكّنت من تحرير الصور.

الشكل 2. مثال على استخدام رسم تخطيطي ومدخلات نصية من Make-A-Scene للحصول على صورة تم إنشاؤها.

يعد Movie Gen أحدث إسهامات Meta في أبحاث الذكاء الاصطناعي التوليدي. فهو يجمع بين جميع الطرائق المذكورة سابقًا ويسمح بمزيد من التحكم الدقيق حتى يتمكن الأشخاص من استخدام النماذج بطرق أكثر إبداعًا. إن Meta Movie Gen عبارة عن مجموعة من النماذج التأسيسية لتوليد أنواع مختلفة من الوسائط، بما في ذلك تحويل النص إلى فيديو، وتحويل النص إلى صوت، وتحويل النص إلى صورة. وهو يتألف من أربعة نماذج، تم تدريبها على مجموعة من مجموعات البيانات المرخصة والمتاحة للجمهور. 

إليك لمحة سريعة عن هذه النماذج:

  • نموذج فيديو جيل الأفلام: نموذج مكون من 30 مليار معيار يُنشئ مقاطع فيديو عالية الجودة من المطالبات النصية. 
  • نموذج صوتي من جيل الأفلام: نموذج مكون من 13 مليار معيار يمكنه إنشاء مسارات صوتية تتزامن مع محتوى الفيديو. 
  • نموذج فيديو جيل الأفلام المخصص: يُنشئ مقاطع فيديو لأفراد محددين بناءً على مطالبة نصية وصورة واحدة، مع الاحتفاظ بأشكالهم. 
  • نموذج تحرير جنرال الأفلام: يتيح هذا النموذج إجراء تعديلات نصية مفصّلة على مقاطع الفيديو الحقيقية والخيالية. 

تدريب نموذج فيديو جيل الأفلام الوصفية

شاركت العديد من العمليات الرئيسية في إنشاء وتدريب نموذج فيديو جيل الأفلام. تضمنت الخطوة الأولى جمع البيانات المرئية وإعدادها، بما في ذلك الصور ومقاطع الفيديو، وهي في المقام الأول لأنشطة بشرية تمت تصفيتها من حيث الجودة والحركة والملاءمة. ثم تم إقران البيانات بتعليقات نصية تشرح ما يحدث داخل كل مشهد. وقد وفرت التسميات التوضيحية، التي تم إنشاؤها باستخدام نموذج LLaMa3-Video من Meta، تفاصيل غنية حول محتوى كل مشهد، مما عزز قدرات النموذج في سرد القصص المرئية.

الشكل 3. نظرة عامة على خط أنابيب تنظيم البيانات قبل التدريب لنموذج الفيديو "موفي جين فيديو".

بدأت عملية التدريب بتعلّم النموذج لتحويل النص إلى صور منخفضة الدقة. ثم تطورت العملية إلى إنشاء مقاطع فيديو كاملة من خلال مزيج من التدريب على تحويل النص إلى صورة والنص إلى فيديو، باستخدام صور عالية الجودة بشكل متزايد. 

قامت أداة تسمى الترميز التلقائي الزمني (TAE) بضغط مقاطع الفيديو لإدارة كميات كبيرة من البيانات بكفاءة. وأدى الضبط الدقيق إلى زيادة دقة جودة الفيديو، وضمنت طريقة تسمى متوسط النموذج (تجمع بين مخرجات نماذج متعددة للحصول على نتائج أكثر سلاسة واتساقاً) اتساقاً أكبر في الإخراج. أخيرًا، تمت ترقية الفيديو، الذي كان في البداية بدقة 768 بكسل، إلى دقة 1080 بكسل حادة باستخدام تقنية الترقية المكانية التي تزيد من دقة الصورة عن طريق إضافة بيانات البكسل للحصول على صور أكثر وضوحًا. وكانت النتيجة مخرجات فيديو عالية الجودة ومفصلة.

استكشاف قدرات توليد الأفلام الوصفية

تدعم نماذج Meta Movie Gen بشكل أساسي أربع قدرات مختلفة. لنلقي نظرة فاحصة على كل منها.

توليد الفيديو والصوت

يمكن لبرنامج Meta Movie Gen إنشاء مقاطع فيديو عالية الجودة. يمكن أن يصل طول مقاطع الفيديو هذه إلى 16 ثانية ويتم تشغيلها بسرعة 16 إطارًا في الثانية (إطارًا في الثانية)، مما يؤدي إلى إنشاء صور واقعية تلتقط الحركة والتفاعلات وزوايا الكاميرا من المطالبات النصية. وبالاقتران مع نموذج الصوت المكون من 13 مليار معيار صوتي، يمكنه إنتاج صوت متزامن، بما في ذلك الأصوات المحيطة ومؤثرات الرغوة والموسيقى، لتتناسب مع المرئيات. 

ويضمن هذا الإعداد تجربة سلسة ونابضة بالحياة، حيث يظل كل من المرئيات والصوت متناسقاً وواقعياً عبر مختلف المشاهد والمطالبات. على سبيل المثال، استُخدمت هذه النماذج لإنشاء مقاطع فيديو لفرس النهر الخنزيري الفيروسي في تايلاند، المسمى مو دينج.

الشكل 4. إطار من مقطع فيديو لمو دنغ صُنع باستخدام برنامج Meta's Movie Gen.

إنشاء فيديو مخصص

من الإمكانيات الأخرى المثيرة للاهتمام في نموذج Meta Movie Gen توليد فيديو مخصص. يمكن للمستخدمين تقديم صورة شخص ومطالبة نصية تصف كيفية إنشاء مقطع الفيديو، مما ينتج عنه مقطع فيديو يتضمن الشخص المرجعي ويتضمن التفاصيل المرئية الغنية المحددة في المطالبة النصية. ويستخدم النموذج كلا المدخلين (الصورة والنص) للحفاظ على المظهر الفريد للشخص وحركات جسمه الطبيعية، مع اتباع المشهد الموصوف في المطالبة بدقة.

الشكل 5. مثال على قدرة توليد الفيديو المخصص للنموذج.

تحرير دقيق للفيديو 

باستخدام نموذج Movie Gen Edit، يمكن للمستخدمين توفير مقطع فيديو ومطالبة نصية كمدخلات لتحرير الفيديو بطرق إبداعية. يجمع النموذج بين توليد الفيديو والتحرير المتقدم للصور لإجراء تعديلات محددة للغاية، مثل إضافة عناصر أو إزالتها أو استبدالها. ويمكنه أيضًا إجراء تغييرات عامة مثل تعديل خلفية مقطع الفيديو أو النمط العام. ولكن ما يجعل هذا النموذج فريدًا حقًا هو دقته: يمكنه استهداف وحدات البكسل المحددة التي تتطلب التعديل فقط وترك الباقي دون مساس. وهذا يحافظ على المحتوى الأصلي قدر الإمكان. 

الشكل 6. أمثلة مختلفة لإمكانيات تحرير الفيديو في نموذج Movie Gen Edit.

أدوات قياس الأداء المعياري الخاصة ب Meta Movie Gen

إلى جانب نماذج الذكاء الاصطناعي التوليدية، قدمت Meta أيضًا منصة Movie Gen Bench، وهي مجموعة من أدوات قياس الأداء لاختبار أداء نماذج الذكاء الاصطناعي التوليدية. تأتي مع أداتين رئيسيتين: مقعد الفيديو Movie Gen Video Bench ومقياس الصوت Movie Gen Audio Bench. كلاهما مصمم لاختبار جوانب مختلفة من توليد الفيديو والصوت.

إليك لمحة عن كلتا الأداتين:

  • مقعد فيديو جنرال أفلام: يتألف من 1003 مطالبات تغطي مجموعة واسعة من فئات الاختبار مثل الأنشطة البشرية والحيوانات والمناظر الطبيعية والفيزياء، بالإضافة إلى مواضيع وأنشطة غير عادية. ما يجعل معيار التقييم هذا ذا قيمة خاصة هو تغطيته لمستويات الحركة، مما يضمن اختبار نموذج توليد الفيديو لكل من التسلسلات السريعة والبطيئة.
  • مقعد توليد الصوت من جيل الأفلام: تم تصميمه لاختبار قدرات توليد الصوت عبر 527 مطالبة. يتم إقران هذه المطالبات بمقاطع الفيديو التي تم إنشاؤها لتقييم مدى قدرة النموذج على مزامنة المؤثرات الصوتية والموسيقى مع المحتوى المرئي.
الشكل 7. يوضح الشكل تفصيلًا لمطالبات التقييم، مع وجود قائمة بالمفاهيم على اليسار وسحابة كلمات من الأسماء والأفعال شائعة الاستخدام على اليمين.

تطبيق عملي للفيلم التعريفي العام

والآن بعد أن تناولنا ماهية نماذج Meta Movie Gen وكيفية عملها، دعنا نستكشف أحد تطبيقاتها العملية. 

ابتكارات الذكاء الاصطناعي في صناعة الأفلام

أحد الاستخدامات الأكثر إثارة لـ Meta's Movie Gen هو كيفية تحويل صناعة الأفلام من خلال إنشاء الفيديو والصوت المدعوم بالذكاء الاصطناعي. باستخدام Movie Gen، يمكن لمنشئي المحتوى إنشاء مرئيات وأصوات عالية الجودة من مطالبات نصية بسيطة، مما يفتح طرقًا جديدة لسرد القصص. 

في الواقع، تعاونت Meta مع Blumhouse ومجموعة من صانعي الأفلام، حيث جمعت ملاحظاتهم حول كيفية دعم أداة Movie Gen للعملية الإبداعية على أفضل وجه. وقد اختبر صانعو الأفلام مثل أنيش تشاغانتي وذا سبورلوك سيسترز وكيسي أفليك قدرة الأداة على التقاط الحالة المزاجية والنبرة والتوجيه البصري. واكتشفوا أن النماذج ساعدت في إطلاق أفكار جديدة.

وقد أظهر هذا البرنامج التجريبي أنه على الرغم من أن برنامج Movie Gen لا يحل محل صناعة الأفلام التقليدية، إلا أنه يوفر للمخرجين طريقة جديدة لتجربة العناصر المرئية والصوتية بسرعة وإبداع. كما أعرب صانعو الأفلام عن تقديرهم لكيفية إتاحة ميزات التحرير في الأداة إمكانية اللعب بالأصوات والمؤثرات والأنماط البصرية في الخلفية بحرية أكبر. 

الشكل 8. إطار من فيلم قصير تم إنشاؤه باستخدام Meta Movie Gen.

الماخذ الرئيسية

تُعد Meta Movie Gen خطوة إلى الأمام في استخدام الذكاء الاصطناعي التوليدي لإنشاء مقاطع فيديو وأصوات عالية الجودة من أوصاف نصية بسيطة. تساعد الأداة المستخدمين على إنشاء مقاطع فيديو واقعية ومخصصة بسهولة. وبفضل إمكانيات مثل التحرير الدقيق للفيديو وتوليد الوسائط المخصصة، تقدم Meta Movie Gen مجموعة أدوات مرنة تفتح إمكانيات جديدة لرواية القصص وصناعة الأفلام وغيرها. من خلال تسهيل إنشاء صور مرئية مفصلة ومفيدة، تعمل Meta Movie Gen على تغيير كيفية إنشاء مقاطع الفيديو واستخدامها في مختلف المجالات، وتضع معيارًا جديدًا لإنشاء المحتوى القائم على الذكاء الاصطناعي.

لمعرفة المزيد، قم بزيارة مستودع GitHub الخاص بنا وتفاعل مع مجتمعنا. استكشف تطبيقات الذكاء الاصطناعي في السيارات ذاتية القيادة والزراعة على صفحات الحلول الخاصة بنا. 🚀

شعار الفيسبوكشعار تويترشعار LinkedInرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي