Зелёная проверка
Ссылка копируется в буфер обмена

Meta Movie Gen: Переосмысливая создание контента

Узнай, как Meta Movie Gen переосмысливает создание видео и звука. Узнай, как эта модель обеспечивает точное редактирование видео и поддерживает создание персонализированных медиафайлов.

Будь ты начинающим режиссером или создателем контента, которому нравится снимать видео для своей аудитории, наличие инструментов искусственного интеллекта, расширяющих твои творческие возможности, всегда полезно. Недавно Meta запустила свою новейшую генеративную модель видео, известную как Meta Movie Gen. 

По прогнозам, мировой рынок генеративного ИИ в сфере медиа и развлечений к 2033 году достигнет 11,57 миллиарда долларов, а такие компании, как Runway, OpenAI и Meta, станут лидерами в области новаторских инноваций. В частности, Meta Movie Gen отлично подходит для таких приложений, как кинематограф, создание видеоконтента и цифровых историй, позволяя как никогда просто воплощать творческие идеи в жизнь с помощью высококачественных видеороликов, созданных искусственным интеллектом. В этой статье мы расскажем о Meta Movie Gen и о том, как она работает. Также мы рассмотрим некоторые из его применений. Давай приступим!

Рис. 1. Кадр видеоклипа, сгенерированного с помощью Meta Movie Gen.

Что такое Meta Movie Gen?

Прежде чем мы обсудим, что такое Meta Movie Gen, давай посмотрим, как он появился. 

Исследовательская деятельность Meta, связанная с генеративным ИИ, началась с серии моделей Make-A-Scene. Это исследование посвящено мультимодальному методу генеративного ИИ, который помогает художникам и фантазерам воплощать в жизнь свои фантазии. Художники могут вводить изображения, аудио, видео или 3D-анимацию, чтобы получить на выходе желаемый образ. Следующий скачок в инновациях произошел с появлением диффузных моделей, таких как модели Llama Image Foundation(Emu), которые позволили генерировать изображения и видео гораздо более высокого качества и дали возможность редактировать изображения.

Рис. 2. Пример использования эскиза Make-A-Scene и ввода текста для получения сгенерированного изображения.

Movie Gen - это последний вклад Meta в исследования генеративного ИИ. Он объединяет в себе все ранее упомянутые модальности и позволяет осуществлять более тонкий контроль, чтобы люди могли использовать модели более творчески. Meta Movie Gen - это коллекция основополагающих моделей для генерации различных типов медиа, включая преобразование текста в видео, текста в аудио и текста в изображение. Он состоит из четырех моделей, которые обучаются на комбинации лицензированных и общедоступных наборов данных

Вот краткий обзор этих моделей:

  • Видеомодель Movie Gen: Модель с 30 миллиардами параметров, которая генерирует высококачественные видеоролики на основе текстовых подсказок. 
  • Модель Movie Gen Audio: Модель с 13 миллиардами параметров, которая может создавать саундтреки, синхронизированные с видеоконтентом. 
  • Персонализированная видеомодель Movie Gen: Она генерирует видеоролики о конкретных людях на основе текстовой подсказки и одного изображения, сохраняя их сходство. 
  • Модель Movie Gen Edit: Модель позволяет детально редактировать видео с помощью текста для реальных и вымышленных роликов. 

Обучение видеомодели Meta Movie Gen

В процессе создания и обучения модели Movie Gen Video было задействовано несколько ключевых процессов. На первом этапе были собраны и подготовлены визуальные данные, включая изображения и видеоклипы, в основном человеческой деятельности, отфильтрованные по качеству, движению и релевантности. Затем к этим данным были добавлены текстовые подписи, которые объясняли, что происходит в каждой сцене. Подписи, созданные с помощью модели LLaMa3-Video компании Meta, содержали множество подробностей о содержании каждой сцены, расширяя возможности визуального повествования модели.

Рис. 3. Обзор конвейера предварительного обучения модели Movie Gen Video по сбору данных.

Процесс обучения начался с того, что модель научилась преобразовывать текст в изображения низкого разрешения. Затем она перешла к созданию полноценных видеоклипов с помощью комбинации обучения "текст - изображение" и "текст - видео", используя все более качественные визуальные образы. 

Инструмент под названием Temporal Autoencoder (TAE) сжимал видео, чтобы эффективно управлять большими объемами данных. Тонкая настройка еще больше повысила качество видео, а метод, называемый усреднением моделей (он объединяет несколько выходов моделей для получения более гладких и последовательных результатов), обеспечил большую согласованность выходов. Наконец, видео, изначально имевшее разрешение 768p, было увеличено до четкого разрешения 1080p с помощью техники пространственного апсемплера, которая увеличивает разрешение изображения путем добавления пиксельных данных для более четкого изображения. В результате получилось высококачественное и детализированное видео.

Изучение возможностей Meta Movie Gen

Модели Meta Movie Gen в первую очередь поддерживают четыре различные способности. Давай рассмотрим каждую из них поближе.

Генерация видео и аудио

Meta Movie Gen может генерировать высококачественные видеоролики. Эти видеоклипы могут быть длиной до 16 секунд и работать с частотой 16 кадров в секунду, создавая реалистичные визуальные образы, передающие движение, взаимодействие и ракурсы камеры после текстовых подсказок. В паре с аудиомоделью с 13 миллиардами параметров он может создавать синхронизированное аудио, включая окружающие звуки, эффекты Фоули и музыку, чтобы соответствовать визуальным эффектам. 

Такая установка обеспечивает бесшовный, реалистичный опыт, когда визуальные и звуковые эффекты остаются выровненными и реалистичными в различных сценах и подсказках. Например, эти модели использовались для создания видеороликов о вирусном пигмейском бегемоте из Таиланда по имени Му Денг.

Рис. 4. Кадр из видеоклипа Му Денга, созданного с помощью Meta's Movie Gen.

Генерация персонализированного видео

Еще одна интересная возможность модели Meta Movie Gen - создание персонализированного видео. Пользователи могут предоставить изображение человека и текстовую подсказку, описывающую, как должен быть сгенерирован видеоклип, в результате чего получится видео, включающее в себя эталонного человека и богатые визуальные детали, указанные в текстовой подсказке. Модель использует оба входа (изображение и текст), чтобы сохранить уникальную внешность человека и его естественные движения тела, при этом точно следуя сцене, описанной в подсказке.

Рис. 5. Пример возможности модели по созданию персонализированного видео.

Точное редактирование видео 

Используя модель Movie Gen Edit, пользователи могут предоставить на вход как видеоклип, так и текстовую подсказку, чтобы творчески отредактировать видео. Модель сочетает в себе генерацию видео с продвинутым редактированием изображений, что позволяет выполнять очень специфические правки, например добавлять, удалять или заменять элементы. Она также может выполнять глобальные изменения, например, изменять фон видеоклипа или общий стиль. Но что делает модель по-настоящему уникальной, так это ее точность: она может нацеливаться только на конкретные пиксели, требующие редактирования, и оставлять остальные нетронутыми. Это позволяет максимально сохранить оригинальный контент. 

Рис. 6. Различные примеры возможностей модели Movie Gen Edit по редактированию видео.

Инструменты для бенчмаркинга Meta Movie Gen

Вместе с генеративными моделями ИИ Meta также представила Movie Gen Bench - набор бенчмарков для тестирования производительности генеративных моделей ИИ. В него входят два основных инструмента: Movie Gen Video Bench и Movie Gen Audio Bench. Оба они предназначены для тестирования различных аспектов генерации видео и аудио.

Вот взгляд на оба инструмента:

  • Movie Gen Video Bench: Он состоит из 1003 заданий, охватывающих самые разные категории тестирования, такие как деятельность людей, животные, природные пейзажи, физика, а также необычные предметы и действия. Что делает этот оценочный бенчмарк особенно ценным, так это охват уровней движения, что гарантирует, что модель генерации видео будет протестирована как для быстро развивающихся, так и для медленных последовательностей.
  • Movie Gen Audio Bench: Он предназначен для тестирования возможностей генерации звука по 527 подсказкам. Эти подсказки сопрягаются со сгенерированными видеороликами, чтобы оценить, насколько хорошо модель может синхронизировать звуковые эффекты и музыку с визуальным контентом.
Рис. 7. На диаграмме показана разбивка оценочных подсказок: слева - список понятий, справа - облако слов с часто используемыми существительными и глаголами.

Практическое применение Meta Movie Gen

Теперь, когда мы рассказали о том, что такое модели Meta Movie Gen и как они работают, давай рассмотрим одно из их практических применений. 

Movie Gen AI Инновации в кинематографе

Одно из самых захватывающих применений Movie Gen от Meta - это то, как он может изменить кинематограф благодаря созданию видео и аудио с помощью искусственного интеллекта. С помощью Movie Gen создатели могут генерировать высококачественные визуальные и звуковые эффекты из простых текстовых подсказок, открывая новые способы рассказывать истории. 

На самом деле Meta сотрудничала с Blumhouse и группой кинематографистов, собирая их отзывы о том, как Movie Gen может наилучшим образом поддержать творческий процесс. Такие режиссеры, как Анеш Чаганти, сестры Сперлок и Кейси Аффлек, проверили способность инструмента передавать настроение, тон и визуальное направление. Они обнаружили, что модели помогают зажечь свежие идеи.

Пилотная программа показала, что хотя Movie Gen не заменяет традиционный кинематограф, он предлагает режиссерам новый способ быстро и творчески экспериментировать с визуальными и звуковыми элементами. Режиссеры также оценили, что возможности редактирования инструмента позволяют им свободнее играть с фоновыми звуками, эффектами и визуальными стилями. 

Рис. 8. Кадр из короткометражного фильма, созданного с помощью Meta Movie Gen.

Основные выводы

Meta Movie Gen - это шаг вперед в использовании генеративного ИИ для создания высококачественных видео и звуков из простых текстовых описаний. Инструмент помогает пользователям легко создавать реалистичные и нестандартные видео. Благодаря таким возможностям, как точное редактирование видео и генерация персонализированных медиа, Meta Movie Gen предлагает гибкий набор инструментов, открывающий новые возможности для создания историй, фильмов и не только. Упрощая создание детальных и полезных визуальных эффектов, Meta Movie Gen меняет способы создания и использования видео в различных областях и устанавливает новые стандарты создания контента на основе искусственного интеллекта.

Чтобы узнать больше, посети наш репозиторий на GitHub и присоединяйся к нашему сообществу. Изучи применение ИИ в самодвижущихся автомобилях и сельском хозяйстве на страницах наших решений. 🚀

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения