Узнай, как Meta Movie Gen переосмысливает создание видео и звука. Узнай, как эта модель обеспечивает точное редактирование видео и поддерживает создание персонализированных медиафайлов.
Будь ты начинающим режиссером или создателем контента, которому нравится снимать видео для своей аудитории, наличие инструментов искусственного интеллекта, расширяющих твои творческие возможности, всегда полезно. Недавно Meta запустила свою новейшую генеративную модель видео, известную как Meta Movie Gen.
По прогнозам, мировой рынок генеративного ИИ в сфере медиа и развлечений к 2033 году достигнет 11,57 миллиарда долларов, а такие компании, как Runway, OpenAI и Meta, станут лидерами в области новаторских инноваций. В частности, Meta Movie Gen отлично подходит для таких приложений, как кинематограф, создание видеоконтента и цифровых историй, позволяя как никогда просто воплощать творческие идеи в жизнь с помощью высококачественных видеороликов, созданных искусственным интеллектом. В этой статье мы расскажем о Meta Movie Gen и о том, как она работает. Также мы рассмотрим некоторые из его применений. Давай приступим!
Прежде чем мы обсудим, что такое Meta Movie Gen, давай посмотрим, как он появился.
Исследовательская деятельность Meta, связанная с генеративным ИИ, началась с серии моделей Make-A-Scene. Это исследование посвящено мультимодальному методу генеративного ИИ, который помогает художникам и фантазерам воплощать в жизнь свои фантазии. Художники могут вводить изображения, аудио, видео или 3D-анимацию, чтобы получить на выходе желаемый образ. Следующий скачок в инновациях произошел с появлением диффузных моделей, таких как модели Llama Image Foundation(Emu), которые позволили генерировать изображения и видео гораздо более высокого качества и дали возможность редактировать изображения.
Movie Gen - это последний вклад Meta в исследования генеративного ИИ. Он объединяет в себе все ранее упомянутые модальности и позволяет осуществлять более тонкий контроль, чтобы люди могли использовать модели более творчески. Meta Movie Gen - это коллекция основополагающих моделей для генерации различных типов медиа, включая преобразование текста в видео, текста в аудио и текста в изображение. Он состоит из четырех моделей, которые обучаются на комбинации лицензированных и общедоступных наборов данных.
Вот краткий обзор этих моделей:
В процессе создания и обучения модели Movie Gen Video было задействовано несколько ключевых процессов. На первом этапе были собраны и подготовлены визуальные данные, включая изображения и видеоклипы, в основном человеческой деятельности, отфильтрованные по качеству, движению и релевантности. Затем к этим данным были добавлены текстовые подписи, которые объясняли, что происходит в каждой сцене. Подписи, созданные с помощью модели LLaMa3-Video компании Meta, содержали множество подробностей о содержании каждой сцены, расширяя возможности визуального повествования модели.
Процесс обучения начался с того, что модель научилась преобразовывать текст в изображения низкого разрешения. Затем она перешла к созданию полноценных видеоклипов с помощью комбинации обучения "текст - изображение" и "текст - видео", используя все более качественные визуальные образы.
Инструмент под названием Temporal Autoencoder (TAE) сжимал видео, чтобы эффективно управлять большими объемами данных. Тонкая настройка еще больше повысила качество видео, а метод, называемый усреднением моделей (он объединяет несколько выходов моделей для получения более гладких и последовательных результатов), обеспечил большую согласованность выходов. Наконец, видео, изначально имевшее разрешение 768p, было увеличено до четкого разрешения 1080p с помощью техники пространственного апсемплера, которая увеличивает разрешение изображения путем добавления пиксельных данных для более четкого изображения. В результате получилось высококачественное и детализированное видео.
Модели Meta Movie Gen в первую очередь поддерживают четыре различные способности. Давай рассмотрим каждую из них поближе.
Meta Movie Gen может генерировать высококачественные видеоролики. Эти видеоклипы могут быть длиной до 16 секунд и работать с частотой 16 кадров в секунду, создавая реалистичные визуальные образы, передающие движение, взаимодействие и ракурсы камеры после текстовых подсказок. В паре с аудиомоделью с 13 миллиардами параметров он может создавать синхронизированное аудио, включая окружающие звуки, эффекты Фоули и музыку, чтобы соответствовать визуальным эффектам.
Такая установка обеспечивает бесшовный, реалистичный опыт, когда визуальные и звуковые эффекты остаются выровненными и реалистичными в различных сценах и подсказках. Например, эти модели использовались для создания видеороликов о вирусном пигмейском бегемоте из Таиланда по имени Му Денг.
Еще одна интересная возможность модели Meta Movie Gen - создание персонализированного видео. Пользователи могут предоставить изображение человека и текстовую подсказку, описывающую, как должен быть сгенерирован видеоклип, в результате чего получится видео, включающее в себя эталонного человека и богатые визуальные детали, указанные в текстовой подсказке. Модель использует оба входа (изображение и текст), чтобы сохранить уникальную внешность человека и его естественные движения тела, при этом точно следуя сцене, описанной в подсказке.
Используя модель Movie Gen Edit, пользователи могут предоставить на вход как видеоклип, так и текстовую подсказку, чтобы творчески отредактировать видео. Модель сочетает в себе генерацию видео с продвинутым редактированием изображений, что позволяет выполнять очень специфические правки, например добавлять, удалять или заменять элементы. Она также может выполнять глобальные изменения, например, изменять фон видеоклипа или общий стиль. Но что делает модель по-настоящему уникальной, так это ее точность: она может нацеливаться только на конкретные пиксели, требующие редактирования, и оставлять остальные нетронутыми. Это позволяет максимально сохранить оригинальный контент.
Вместе с генеративными моделями ИИ Meta также представила Movie Gen Bench - набор бенчмарков для тестирования производительности генеративных моделей ИИ. В него входят два основных инструмента: Movie Gen Video Bench и Movie Gen Audio Bench. Оба они предназначены для тестирования различных аспектов генерации видео и аудио.
Вот взгляд на оба инструмента:
Теперь, когда мы рассказали о том, что такое модели Meta Movie Gen и как они работают, давай рассмотрим одно из их практических применений.
Одно из самых захватывающих применений Movie Gen от Meta - это то, как он может изменить кинематограф благодаря созданию видео и аудио с помощью искусственного интеллекта. С помощью Movie Gen создатели могут генерировать высококачественные визуальные и звуковые эффекты из простых текстовых подсказок, открывая новые способы рассказывать истории.
На самом деле Meta сотрудничала с Blumhouse и группой кинематографистов, собирая их отзывы о том, как Movie Gen может наилучшим образом поддержать творческий процесс. Такие режиссеры, как Анеш Чаганти, сестры Сперлок и Кейси Аффлек, проверили способность инструмента передавать настроение, тон и визуальное направление. Они обнаружили, что модели помогают зажечь свежие идеи.
Пилотная программа показала, что хотя Movie Gen не заменяет традиционный кинематограф, он предлагает режиссерам новый способ быстро и творчески экспериментировать с визуальными и звуковыми элементами. Режиссеры также оценили, что возможности редактирования инструмента позволяют им свободнее играть с фоновыми звуками, эффектами и визуальными стилями.
Meta Movie Gen - это шаг вперед в использовании генеративного ИИ для создания высококачественных видео и звуков из простых текстовых описаний. Инструмент помогает пользователям легко создавать реалистичные и нестандартные видео. Благодаря таким возможностям, как точное редактирование видео и генерация персонализированных медиа, Meta Movie Gen предлагает гибкий набор инструментов, открывающий новые возможности для создания историй, фильмов и не только. Упрощая создание детальных и полезных визуальных эффектов, Meta Movie Gen меняет способы создания и использования видео в различных областях и устанавливает новые стандарты создания контента на основе искусственного интеллекта.
Чтобы узнать больше, посети наш репозиторий на GitHub и присоединяйся к нашему сообществу. Изучи применение ИИ в самодвижущихся автомобилях и сельском хозяйстве на страницах наших решений. 🚀
Начни свое путешествие с будущим машинного обучения