X
Ultralytics YOLOv8.2 الإصدارUltralytics YOLOv8.2 الإصدارUltralytics YOLOv8.2 سهم الإطلاق
الشيك الأخضر
تم نسخ الرابط إلى الحافظة

توليد مقاطع الفيديو باستخدام برنامج فيو من جوجل ديب مايند

تعرّف على المزيد حول Veo، وهو أحدث نموذج فيديو تكويني من Google DeepMind يمكنه إنشاء مقاطع فيديو عالية الجودة بدقة 1080 بكسل من النصوص والصور ومطالبات الفيديو دون عناء.

خلال عرض Google I/O لعام 2024 في 14 مايو، شاركت Google آخر التحديثات من DeepMind، قسم الذكاء الاصطناعي لديها. كان أحد أكثر التطورات المثيرة التي تمت مشاركتها هو أحدث نموذج فيديو تكويني لديهم، Veo. يمكن ل Veo إنشاء مقاطع فيديو عالية الجودة بدقة 1080 بكسل استناداً إلى النصوص والصور ومطالبات الفيديو. حتى أنه يتيح لك تحرير مقاطع الفيديو التي تم إنشاؤها بمطالبات لاحقة. يرتقي Veo بالذكاء الاصطناعي التوليدي إلى المستوى التالي. دعنا نلقي نظرة فاحصة على الميزات التي يقدمها Veo. 

فهم قدرات فيو

Veo هو نموذج فيديو توليدي يستخدم فهماً عميقاً للغة والصور لإنشاء مقاطع فيديو تتطابق بشكل وثيق مع الرؤية الإبداعية للمستخدم. يمكنه التقاط نبرة وتفاصيل المطالبات الأطول بدقة، مما يجعله أداة قوية للمبدعين الذين يرغبون في تحويل أفكارهم إلى محتوى فيديو دقيق.

يمكن للمستخدم أن يتمتع بتحكم إبداعي غير مسبوق في الفيديو الذي تم إنشاؤه لأن فيو يمكنه فهم تقنيات الأفلام مثل "اللقطات المتتابعة" و"اللقطات الجوية للمناظر الطبيعية". هذا التحكم الإبداعي يجعل من الممكن للمستخدمين إنشاء مقاطع فيديو يتحرك فيها الأشخاص والحيوانات والأشياء بشكل طبيعي. مقاطع الفيديو التي تم إنشاؤها بواسطة Veo جذابة وجذابة بصريًا لأنه من الصعب اكتشاف أنها تم إنشاؤها بواسطة نموذج ذكاء اصطناعي.

يتجاوز Veo مجرد إنشاء مقاطع فيديو من المطالبات. إذا قدمت مقطع فيديو تم إنشاؤه مسبقًا وطلب تعديل محدد، مثل إدراج قوارب الكاياك في منظر جوي لساحل، يمكن لـ Veo دمج هذا التغيير بسلاسة في الفيديو الأصلي، وإنتاج نسخة محدثة.

الشكل 1. مثال على تحرير الفيديو باستخدام Veo.

إليك بعض الميزات الأخرى التي يقدمها Veo:

  • التحرير المقنع: يمكن أن يساعدك Veo في تحرير مناطق محددة من الفيديو.
  • إنشاء فيديو مستوحى من الصورة: باستخدام صورة ومطالبة نصية، يمكن ل Veo إنشاء مقاطع فيديو تعكس نمط الصورة وتتبع توجيهات المطالبة.
  • مقاطع فيديو ممتدة: يمكن ل Veo إنشاء مقاطع فيديو وتمديدها إلى 60 ثانية أو أكثر، إما من مطالبة واحدة أو سلسلة من المطالبات التي تحكي قصة معًا.

مقاطع الفيديو المذهلة التي أنتجتها فيو

دعنا نستعرض بعض مقاطع الفيديو التي أنتجتها شركة Veo وسبب روعتها. 

يمثل إنشاء مقطع فيديو لفاصل زمني من مطالبة نصية قصيرة تحديًا. عادةً، لا يمكن عادةً أن تنقل المطالبة النصية القصيرة التغييرات والحركات داخل مشهد اللقطات المتتابعة بدقة. لذا، من المدهش أن يتمكن Veo من فهم ما يمكن توقعه من اللقطات المتتابعة دون الخوض في التفاصيل. 

الشكل 2. إطار من فيديو الفاصل الزمني الذي أنشأه فيو.

وبالمثل، ليس من السهل إنشاء مقاطع فيديو ذات فيزياء دقيقة. يحتاج نموذج الذكاء الاصطناعي إلى فهم ومحاكاة قوانين الفيزياء مثل الجاذبية والزخم والتصادمات لجعل الحركات والتفاعلات تبدو واقعية. من المثير للإعجاب أن Veo قادر على نمذجة هذه الديناميكيات بدقة دون توجيهات مفصلة من المطالبات النصية.

الشكل 3. إطار من مقطع فيديو تم إنشاؤه باستخدام فيو يلتقط بدقة فيزياء حركة قنديل البحر.

حتى الآن، لم نشاهد حتى الآن سوى مقاطع فيديو أقصر يتم إنشاؤها بواسطة الذكاء الاصطناعي بسبب القيود الحسابية وتعقيد الحفاظ على التماسك على مدى تسلسلات أطول. في عرض Google I/O لعام 2024، تم عرض قدرة Veo المذهلة على إنشاء مقاطع فيديو أطول وأكثر تعقيداً.

الشكل 4. لقطات من فيديو فيو الأطول الذي عُرض في عرض Google 2024 I/O.

كيف يعمل فيو؟

مثل العديد من نماذج الذكاء الاصطناعي الأخرى، يقف Veo على أكتاف العمالقة. فهو مستمد من التطورات السابقة مثل شبكة الاستعلامات التوليدية (GQN)، وDVD-GAN، وImagen-Video، وPhenaki، وWALT، وVideoPoet، وLumiere، بالإضافة إلى بنية Transformer المملوكة لشركة Google وGemini. بالإضافة إلى ذلك، ولتحسين قدرة Veo على تفسير المطالبات بدقة، كانت التسميات التوضيحية لكل مقطع فيديو في مجموعة بيانات التدريب الخاصة به أكثر تفصيلاً. 

بناءً على سير العمل النموذجي التقريبي الذي شاركته Google، إليك كيفية عمل Veo:

  • موجهات الإدخال: يمكنك توفير موجه نصي، واختيارياً، موجه صورة.
  • الترميز: تتم معالجة المطالبة النصية بواسطة أداة ترميز UL2، وتتم معالجة مطالبة الصورة بواسطة أداة ترميز الصور.
  • موجه مضمن: يتم دمج المخرجات من أدوات تشفير النص والصورة لتكوين موجه مضمن واحد.
  • نموذج الانتشار الكامن: يتم تمرير المطالبة المضمّنة والفيديو المضغوط الصاخب إلى هذا النموذج الذي يُنشئ فيديو مضغوطًا باستخدامهما. يستخدم Veo تمثيلات الفيديو المضغوطة عالية الجودة، والمعروفة باسم الكامنة، لتحسين الكفاءة مع الحفاظ على الجودة.
  • فك التشفير: الخطوة الأخيرة هي فك تشفير إخراج الفيديو بدقة 1080 بكسل من الفيديو المضغوط.
الشكل 5. كيف يعمل فيو

دراسة حالة مقنعة في صناعة الأفلام

لاختبار قدرات Veo، تعاونت Google مع صانع الأفلام دونالد جلوفر واستوديوه الإبداعي Gilga. وقد استخدموا Veo لاستكشاف تقنيات إبداعية مختلفة، بما في ذلك لقطات التتبع الديناميكية التي تتطلب حركة دقيقة وتأطيراً متناسقاً. 

الشكل 6. استخدام فيو في عملية صناعة الأفلام.

تقليدياً، يواجه صانعو الأفلام قيوداً بسبب ضيق الوقت والموارد. مع فيو، استطاع غلوفر وفريقه تجربة لقطات معقدة وتوليدها بسرعة، مما وفر بدوره المزيد من المرونة والابتكار في عملية صناعة الأفلام.

وبفضل Veo، تمكّن غلوفر وفريقه من تجربة لقطات معقدة وتوليدها بسرعة قبل التصوير الفعلي. على سبيل المثال، يمكنهم اختبار لقطات تتبع ديناميكية مختلفة لمعرفة كيف ستبدو وإجراء التعديلات حسب الحاجة. وقد ساعدتهم عملية التصور المسبق هذه على تحسين أفكارهم والتأكد من أن اللقطات ستعمل على النحو المنشود، مما قلل في النهاية من عدد اللقطات المطلوبة أثناء التصوير الفعلي. وقد تمكنوا من إنشاء دراسة حالة مقنعة لإثبات قدرة Veo على تغيير صناعة الأفلام. فهي توفر طريقة أسرع وأكثر كفاءة لتحقيق الرؤى الإبداعية.

الاستخدامات العملية للفيو في الصناعات المختلفة 

تتمتع قدرات توليد الفيديو المتقدمة من Veo بتطبيقات عملية في العديد من الصناعات. في مجال الإعلانات، يمكنها إنتاج إعلانات تجارية مخصصة وعالية الجودة للجماهير المستهدفة بسرعة، مما يوفر الوقت وتكاليف الإنتاج. في مجال التعليم، يمكن ل Veo إنشاء مقاطع فيديو تعليمية جذابة، مما يسهل فهم المفاهيم المعقدة. 

يمكن للشركات استخدام Veo في التدريب والاتصالات المؤسسية. قد يستخدم أخصائيو الرعاية الصحية Veo لمحاكاة الإجراءات الطبية لأغراض التدريب. وفيما يتعلق بالفعاليات والمؤتمرات الافتراضية، يمكن لـ Veo إنشاء محاكاة واقعية للأماكن والمسارح مما يوفر للحضور تجربة تفاعلية جذابة من أي مكان. ويستفيد المنظمون من الوصول الموسع والرؤى القيمة للفعاليات المستقبلية. وبفضل Veo، فُتحت فرص لا حصر لها.

عندما يكون لنموذج الذكاء الاصطناعي القدرة على التأثير في مختلف الصناعات، فمن المهم أن نضع في اعتبارنا السلامة والذكاء الاصطناعي الأخلاقي. ولتمكين اعتماده على نطاق أوسع وضمان الاستخدام المسؤول، نفذت Google العديد من إجراءات السلامة. يتم وضع علامة مائية على مقاطع الفيديو التي تم إنشاؤها بواسطة Veo باستخدام SynthID، وهي أداة لوضع علامة مائية وتحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. يضمن SynthId الشفافية ويساعد على تخفيف مخاطر الخصوصية وحقوق النشر والتحيّز. بخلاف ذلك، تمر جميع مقاطع الفيديو التي تم إنشاؤها من خلال فلاتر السلامة وعمليات التحقق من الحفظ. هذه الضمانات تجعل من Veo أداة قيّمة وأخلاقية تدعم إنتاج الفيديو المسؤول والمبتكر.

مكان الوصول إلى فيو

في الأسابيع المقبلة، ستبدأ Google في الأسابيع المقبلة في تقديم بعض ميزات Veo الرائدة لمنشئي محتوى مختارين من خلال VideoFX، وهي أداة جديدة متاحة على labs.google. تسمح هذه المبادرة بالوصول المبكر إلى إمكانات توليد الفيديو المتقدمة من Veo، مما يمنح المبدعين الفرصة لتجربة ميزاته المبتكرة. قائمة الانتظار الخاصة ب فيو مفتوحة حاليًا، وتدعو المبدعين المهتمين إلى التسجيل واستخدام أدوات فيو القوية في مشاريعهم.

المزيد عن تحديثات الذكاء الاصطناعي التوليدي لعام 2024 من DeepMind

بالإضافة إلى Veo، قدمت شركة DeepMind العديد من التحديثات المتطورة في مجال الذكاء الاصطناعي التوليدي لعام 2024. أحد هذه التحديثات هو Imagen 3، وهو نموذج تحويل النص إلى صورة الأكثر تقدماً حتى الآن. يتفوق Imagen 3 في إنشاء صور واقعية ونابضة بالحياة. فهو يتفهم مطالبات اللغة الطبيعية بعمق ويلتقط التفاصيل المعقدة مع تقليل التشوهات البصرية.

الشكل 7. صورة تم إنشاؤها باستخدام Imagen 3.

كما طورت شركة DeepMind أيضاً Lyria، وهو النموذج الأكثر تقدماً لتوليد الموسيقى بالذكاء الاصطناعي. وكجزء من هذا الجهد، أنشأت ديب مايند مجموعة من أدوات الذكاء الاصطناعي الموسيقية تسمى Music AI Sandbox. تُمكِّن هذه الأدوات الموسيقيين والمنتجين من استكشاف إمكانيات إبداعية جديدة في التأليف الموسيقي وتحويل الصوت.

الشكل 8. مثال على واجهة مستخدم لأدوات موسيقى الذكاء الاصطناعي الخاصة ب DeepMind.

وعلى غرار Veo، نفذت DeepMind العديد من إجراءات السلامة فيما يتعلق بتحديثاتها الأخرى أيضاً. سيتم استخدام SynthID عبر هذه التحديثات كأداة لوضع العلامات المائية وتحديد المحتوى الذي تم إنشاؤه بالذكاء الاصطناعي. تعد هذه التحديثات من DeepMind بتحويل مختلف الصناعات من خلال تقديم أدوات متقدمة وفعالة ومسؤولة لإنشاء محتوى مرئي وصوتي عالي الجودة.

الإبحار في المرحلة التالية من الذكاء الاصطناعي التوليدي

تمثل تطورات الذكاء الاصطناعي التوليدي لعام 2024 من DeepMind، بما في ذلك Veo و Imagen 3 و Lyria، قفزة كبيرة في قدرات الذكاء الاصطناعي. يُحدث Veo نقلة نوعية في مجال إنشاء مقاطع الفيديو بفضل قدرته على توليد مقاطع فيديو عالية الجودة بدقة 1080 بكسل من مطالبات بسيطة، مما يجعله أداة متعددة الاستخدامات لصانعي الأفلام ومنشئي المحتوى. ويتألق Imagen 3 في إنتاج صور واقعية، بينما يقدم Lyria إمكانيات جديدة في توليد الموسيقى باستخدام أدوات الذكاء الاصطناعي المتقدمة.

تعد هذه التقنيات بتحويل مختلف الصناعات من خلال توفير أدوات فعالة ومسؤولة لإنشاء محتوى مرئي وصوتي عالي الجودة. وبفضل تدابير السلامة مثل SynthID التي تضمن الاستخدام الأخلاقي، تواصل شركة DeepMind توسيع حدود الذكاء الاصطناعي، مما يمهد الطريق لتطبيقات مبتكرة في المستقبل.

تعمّق في الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. استكشف صفحات الحلول الخاصة بنا لمعرفة كيفية تطبيق الذكاء الاصطناعي في التصنيع والزراعة.

شعار الفيسبوكشعار تويترشعار لينكد إنرمز نسخ الرابط

اقرأ المزيد في هذه الفئة

دعونا نبني المستقبل
من الذكاء الاصطناعي معا!

ابدأ رحلتك مع مستقبل التعلم الآلي