Meta Movie Gen: إنشاء الفيديو بالذكاء الاصطناعي

سواء كنت صانع أفلام طموحًا أو منشئ محتوى يستمتع بصنع مقاطع فيديو لجمهورك، فإن وجود أدوات الذكاء الاصطناعي التي توسع إبداعك يكون دائمًا مفيدًا. أطلقت Meta مؤخرًا أحدث نموذج فيديو توليدي لها، والمعروف باسم Meta Movie Gen.

من المتوقع أن يصل حجم سوق الذكاء الاصطناعي التوليدي العالمي في الإعلام والترفيه إلى 11.57 مليار دولار بحلول عام 2033، مع شركات مثل Runway و OpenAI و Meta التي تقود الطريق في الابتكارات الرائدة. يعتبر Meta Movie Gen، على وجه الخصوص، رائعًا للتطبيقات مثل صناعة الأفلام وإنشاء محتوى الفيديو ورواية القصص الرقمية، مما يجعل إضفاء الحيوية على الرؤى الإبداعية من خلال مقاطع الفيديو عالية الجودة التي يتم إنشاؤها بواسطة الذكاء الاصطناعي أسهل من أي وقت مضى. في هذه المقالة، سوف نستكشف Meta Movie Gen وكيفية عمله. سنلقي أيضًا نظرة فاحصة على بعض تطبيقاته. هيا بنا نبدأ!

__wf_reserved_inherit — الشكل 1. لقطة من مقطع فيديو تم إنشاؤه باستخدام Meta Movie Gen.

‍

ما هو Meta Movie Gen؟

قبل أن نناقش ماهية Meta Movie Gen، دعنا نلقي نظرة على كيفية ظهورها.

بدأت جهود Meta البحثية المتعلقة بـ الذكاء الاصطناعي التوليدي بسلسلة نماذج Make-A-Scene. يركز هذا البحث على طريقة متعددة الوسائط للذكاء الاصطناعي التوليدي تساعد الفنانين وأصحاب الرؤى على إحياء خيالهم. يمكن للفنانين إدخال الصور أو الصوت أو مقاطع الفيديو أو الرسوم المتحركة ثلاثية الأبعاد للحصول على إخراج الصورة الذي يرغبون فيه. جاءت القفزة التالية في الابتكار مع نماذج الانتشار مثل نماذج Llama Image Foundation (Emu)، والتي جعلت من الممكن إنشاء صور ومقاطع فيديو بجودة أعلى بكثير ومكنت من تحرير الصور.

‍

يعد Movie Gen أحدث مساهمة من Meta في أبحاث الذكاء الاصطناعي التوليدي. فهو يجمع بين جميع الطرائق المذكورة سابقًا ويسمح بمزيد من التحكم الدقيق حتى يتمكن الأشخاص من استخدام النماذج بطرق أكثر إبداعًا. Meta Movie Gen عبارة عن مجموعة من النماذج التأسيسية لإنشاء أنواع مختلفة من الوسائط، بما في ذلك تحويل النص إلى فيديو، وتحويل النص إلى صوت، وتحويل النص إلى صورة. وهي تتكون من أربعة نماذج، تم تدريبها على مجموعة من مجموعات البيانات المرخصة والمتاحة للجمهور.

إليك نظرة عامة سريعة على هذه النماذج:

نموذج Movie Gen Video: نموذج بـ 30 مليار معلمة يقوم بإنشاء مقاطع فيديو عالية الجودة من مطالبات نصية.
‍
نموذج Movie Gen Audio: نموذج بـ 13 مليار معلمة يمكنه إنشاء مقاطع صوتية تتزامن مع محتوى الفيديو.
‍
نموذج فيديو شخصي لتوليد الأفلام: يقوم بإنشاء مقاطع فيديو لأفراد معينين بناءً على مطالبة نصية وصورة واحدة، مع الاحتفاظ بمظهرهم.
‍
نموذج Movie Gen Edit: يتيح النموذج تعديلات فيديو تفصيلية قائمة على النصوص لمقاطع الفيديو الواقعية والخيالية.

تدريب نموذج الفيديو Meta Movie Gen

تضمنت عدة عمليات رئيسية إنشاء وتدريب نموذج الفيديو Movie Gen. تضمنت الخطوة الأولى جمع وإعداد البيانات المرئية، بما في ذلك الصور ومقاطع الفيديو، التي تصور بشكل أساسي الأنشطة البشرية التي تمت تصفيتها من أجل الجودة والحركة والأهمية. ثم تم إقران البيانات بتعليقات نصية تشرح ما كان يحدث داخل كل مشهد. قدمت التعليقات التوضيحية، التي تم إنشاؤها باستخدام نموذج LLaMa3 من Meta، تفاصيل غنية حول محتوى كل مشهد، مما يعزز قدرات سرد القصص المرئية للنموذج.

‍

بدأت عملية التدريب بتعلم النموذج كيفية تحويل النص إلى صور منخفضة الدقة. ثم تقدمت إلى إنشاء مقاطع فيديو كاملة من خلال الجمع بين تحويل النص إلى صورة والتدريب على تحويل النص إلى فيديو، باستخدام مرئيات عالية الجودة بشكل متزايد.

لإدارة كميات كبيرة من البيانات بكفاءة، تم استخدام أداة تسمى Autoencoder الزمني (TAE) لضغط مقاطع الفيديو. وقد أدت عملية الضبط الدقيق إلى زيادة حدة جودة الفيديو، بينما ضمنت طريقة تسمى متوسط النموذج (تجمع بين مخرجات نماذج متعددة للحصول على نتائج أكثر سلاسة واتساقًا) اتساقًا أكبر في المخرجات. وأخيرًا، تمت ترقية الفيديو، الذي كان بدقة 768 بكسل في الأصل، إلى دقة 1080 بكسل حادة باستخدام تقنية spatial upsampler، التي تزيد من دقة الصورة عن طريق إضافة بيانات البكسل للحصول على صور مرئية أكثر وضوحًا. وكانت النتيجة مخرجات فيديو عالية الجودة ومفصلة.

استكشاف قدرات Meta Movie Gen.

تدعم نماذج Meta Movie Gen بشكل أساسي أربع قدرات مختلفة. دعنا نلقي نظرة فاحصة على كل منها.

إنشاء الفيديو والصوت

يمكن لـ Meta Movie Gen إنشاء مقاطع فيديو عالية الجودة. يمكن أن تصل مدة مقاطع الفيديو هذه إلى 16 ثانية وتعمل بسرعة 16 إطارًا في الثانية (إطارًا في الثانية)، مما يخلق صورًا مرئية واقعية تلتقط الحركة والتفاعلات وزوايا الكاميرا من مطالبات نصية. بالإضافة إلى نموذج الصوت ذي 13 مليار معلمة، يمكنه إنتاج صوت متزامن، بما في ذلك الأصوات المحيطة وتأثيرات فولي والموسيقى، لتتناسب مع المرئيات.

يضمن هذا الإعداد تجربة سلسة وواقعية، حيث تظل كل من العناصر المرئية والصوتية متوافقة وواقعية عبر مختلف المشاهد والمطالبات. على سبيل المثال، تم استخدام هذه النماذج لإنشاء مقاطع فيديو لفرس النهر القزم الفيروسي في تايلاند، والذي يُدعى Moo Deng.

‍

إنشاء فيديو مخصص

إحدى القدرات الأخرى المثيرة للاهتمام في نموذج Meta Movie Gen هي إنشاء فيديو مخصص. يمكن للمستخدمين تقديم صورة شخصية ومطالبة نصية تصف كيفية إنشاء مقطع الفيديو، مما يؤدي إلى فيديو يتضمن الشخص المرجعي ويتضمن التفاصيل المرئية الغنية المحددة في المطالبة النصية. يستخدم النموذج كلا المدخلين (الصورة والنص) للحفاظ على المظهر الفريد للشخص وحركات الجسم الطبيعية، مع اتباع المشهد الموصوف في المطالبة بدقة.

‍

تحرير فيديو دقيق

باستخدام نموذج Movie Gen Edit، يمكن للمستخدمين تقديم مقطع فيديو ومطالبة نصية كمدخلات لتحرير الفيديو بطرق إبداعية. يجمع النموذج بين إنشاء الفيديو وتحرير الصور المتقدم لإجراء تعديلات محددة للغاية، مثل إضافة أو إزالة أو استبدال العناصر. يمكنه أيضًا إجراء تغييرات شاملة مثل تعديل خلفية مقطع الفيديو أو النمط العام. ولكن ما يجعل النموذج فريدًا حقًا هو دقته: يمكنه استهداف وحدات البكسل المحددة التي تتطلب التحرير فقط وترك الباقي دون تغيير. هذا يحافظ على المحتوى الأصلي قدر الإمكان.

‍

أدوات القياس المعياري لـ Meta Movie Gen

بالإضافة إلى نماذج الذكاء الاصطناعي التوليدي، قدمت Meta أيضًا Movie Gen Bench، وهي مجموعة من أدوات القياس لاختبار أداء نماذج الذكاء الاصطناعي التوليدي. يأتي مع أداتين رئيسيتين: Movie Gen Video Bench و Movie Gen Audio Bench. تم تصميم كلاهما لاختبار جوانب مختلفة من توليد الفيديو والصوت.

إليك لمحة عن كلتا الأداتين:

مقياس أداء Movie Gen Video: يتكون من 1003 موجه تغطي مجموعة واسعة من فئات الاختبار مثل الأنشطة البشرية والحيوانات والمناظر الطبيعية والفيزياء، بالإضافة إلى الموضوعات والأنشطة غير العادية. ما يجعل هذا المعيار التقييمي ذا قيمة خاصة هو تغطيته لمستويات الحركة، مما يضمن اختبار نموذج توليد الفيديو لكل من التسلسلات السريعة والبطيئة.
‍
مقياس أداء Movie Gen Audio: صُمم لاختبار قدرات توليد الصوت عبر 527 موجهًا. تقترن هذه الموجهات بمقاطع فيديو مُولَّدة لتقييم مدى قدرة النموذج على مزامنة المؤثرات الصوتية والموسيقى مع المحتوى المرئي.

‍

تطبيق عملي لـ Meta Movie Gen

الآن بعد أن غطينا ماهية نماذج Meta Movie Gen وكيف تعمل، دعنا نستكشف أحد تطبيقاتها العملية.

ابتكارات Movie Gen AI في صناعة الأفلام

تتمثل إحدى أكثر الاستخدامات إثارة لـ Movie Gen من Meta في كيفية تحويله صناعة الأفلام من خلال الفيديو المدعوم بالذكاء الاصطناعي و إنشاء الصوت. باستخدام Movie Gen، يمكن للمبدعين إنشاء صور وأصوات عالية الجودة من مطالبات نصية بسيطة، مما يفتح طرقًا جديدة لسرد القصص.

في الواقع، تعاونت Meta مع Blumhouse ومجموعة من صانعي الأفلام، وجمعت ملاحظاتهم حول كيف يمكن لـ Movie Gen أن يدعم العملية الإبداعية على أفضل وجه. اختبر صانعو الأفلام مثل Aneesh Chaganty و Spurlock Sisters و Casey Affleck قدرة الأداة على التقاط الحالة المزاجية والنبرة والاتجاه المرئي. اكتشفوا أن النماذج ساعدت في إثارة أفكار جديدة.

أظهر هذا البرنامج التجريبي أنه على الرغم من أن Movie Gen لا يحل محل صناعة الأفلام التقليدية، إلا أنه يوفر للمخرجين طريقة جديدة لتجربة العناصر المرئية والصوتية بسرعة وإبداع. كما قدر صانعو الأفلام كيف تتيح ميزات التحرير في الأداة لهم اللعب بأصوات الخلفية والمؤثرات والأنماط المرئية بحرية أكبر.

‍

النقاط الرئيسية

تعد Meta Movie Gen خطوة إلى الأمام في استخدام الذكاء الاصطناعي التوليدي لإنشاء مقاطع فيديو وأصوات عالية الجودة من أوصاف نصية بسيطة. تساعد الأداة المستخدمين على إنشاء مقاطع فيديو واقعية ومخصصة بسهولة. بفضل الإمكانات مثل تحرير الفيديو الدقيق وإنشاء الوسائط المخصصة، تقدم Meta Movie Gen مجموعة أدوات مرنة تفتح إمكانيات جديدة لسرد القصص وصناعة الأفلام وما بعدها. من خلال تسهيل إنشاء صور مرئية مفصلة ومفيدة، تعمل Meta Movie Gen على تغيير طريقة إنتاج مقاطع الفيديو واستخدامها في مختلف المجالات ووضع معيار جديد لإنشاء المحتوى المدعوم بالذكاء الاصطناعي.

لمعرفة المزيد، قم بزيارة مستودع GitHub الخاص بنا، وتفاعل مع مجتمعنا. استكشف تطبيقات الذكاء الاصطناعي في السيارات ذاتية القيادة و الزراعة في صفحات الحلول الخاصة بنا. 🚀

Meta Movie Gen: إعادة تصور إنشاء المحتوى

ما هو Meta Movie Gen؟

تدريب نموذج الفيديو Meta Movie Gen