X
Ultralytics YOLOv8.2 РелизUltralytics YOLOv8.2 РелизUltralytics YOLOv8.2 Стрела освобождения
Зелёная проверка
Ссылка копируется в буфер обмена

Создание видеороликов с помощью Veo от Google DeepMind

Узнай больше о Veo, новейшей генеративной видеомодели Google DeepMind, которая может без труда создавать высококачественные видеоролики 1080P из текста, изображений и видеоподсказок.

Во время презентации Google 2024 I/O 14 мая они поделились последними обновлениями от DeepMind, своего подразделения искусственного интеллекта. Одним из самых интересных достижений стала их новейшая генеративная видеомодель Veo. Veo может создавать высококачественные видеоролики в формате 1080P на основе текста, изображений и видеоподсказок. Она даже позволяет редактировать сгенерированные видео с последующими подсказками. Veo выводит генеративный ИИ на новый уровень. Давай подробнее рассмотрим возможности, которые предлагает Veo. 

Понимание возможностей Veo

Veo - это генеративная видеомодель, которая использует глубокое понимание языка и визуальных эффектов для создания видео, точно соответствующих творческому видению пользователя. Она может точно улавливать тон и детали длинных подсказок, что делает ее мощным инструментом для творцов, которые хотят превратить свои идеи в точный видеоконтент.

Пользователь может получить революционный творческий контроль над создаваемым видео, потому что Veo понимает такие техники съёмки, как "таймлапс" и "съёмка пейзажа с воздуха". Благодаря такому творческому контролю пользователи могут создавать видео, в которых люди, животные и предметы движутся естественно. Видео, созданные Veo, увлекательны и визуально привлекательны, потому что трудно заметить, что они сгенерированы моделью искусственного интеллекта.

Veo выходит за рамки простого создания видео по подсказкам. Если ты предоставишь ранее созданное видео и конкретный запрос на редактирование, например, вставишь байдарки в воздушный вид побережья, Veo сможет легко интегрировать это изменение в оригинальное видео, создав обновленную версию.

Рис. 1. Пример редактирования видео с помощью Veo.

Вот еще несколько возможностей, которые предлагает Veo:

  • Редактирование по маске: Veo поможет тебе редактировать определенные области видео.
  • Создание видео по мотивам изображения: Используя изображение и текстовую подсказку, Veo может генерировать видеоролики, которые повторяют стиль изображения и следуют указаниям подсказки.
  • Расширенные видеоклипы: Veo может создавать и удлинять видеоклипы до 60 секунд и более, как по одной подсказке, так и по последовательности подсказок, которые вместе рассказывают историю.

Захватывающие видео, которые создал Veo

Давай пройдемся по некоторым видео, которые создал Veo, и объясним, почему это так захватывает дух. 

Создать видео таймлапса на основе короткой текстовой подсказки довольно сложно. Как правило, короткая текстовая подсказка не может точно передать изменения и движения внутри сцены таймлапса. Поэтому удивительно, что Veo может понять, чего ожидать от таймлапса, не вдаваясь в подробности. 

Рис. 2. Кадр из таймлапс-видео, сгенерированного Вео.

Аналогично, генерировать видео с точной физикой не так-то просто. ИИ-модель должна понимать и моделировать такие законы физики, как гравитация, импульс и столкновения, чтобы движения и взаимодействия выглядели реалистично. Впечатляет, что Veo способен точно моделировать эту динамику без детального руководства из текстовых подсказок.

Рис. 3. Кадр из видео, сгенерированного с помощью Veo, точно передает физику движения медузы.

До сих пор мы видели только короткие видео, созданные искусственным интеллектом из-за вычислительных ограничений и сложности поддержания целостности в длинных последовательностях. На презентации Google 2024 I/O была показана умопомрачительная способность Veo создавать более длинные и замысловатые видео.

Рис. 4. Кадры из более длинного видео Veo, показанного на презентации Google 2024 I/O.

Как работает Veo?

Как и многие другие модели ИИ, Veo стоит на плечах гигантов. Она опирается на такие предыдущие разработки, как Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere, а также на фирменную архитектуру Transformer и Gemini от Google. Кроме того, чтобы улучшить способность Veo точно интерпретировать подсказки, титры к каждому видео в тренировочном наборе данных были более подробными. 

Основываясь на примерной модели рабочего процесса, которой поделился Google, вот как работает Veo:

  • Вводные подсказки: Ты предоставляешь текстовую подсказку и, по желанию, подсказку в виде изображения.
  • Кодировка: Текстовая подсказка обрабатывается кодировщиком UL2, а подсказка с изображением - кодировщиком изображений.
  • Встроенная подсказка: Выходы кодировщиков текста и изображения объединяются в одну встроенную подсказку.
  • Модель латентной диффузии: Встроенная подсказка и шумное сжатое видео передаются в эту модель, которая генерирует на их основе сжатое видео. Veo использует высококачественные представления сжатого видео, известные как латенты, чтобы повысить эффективность при сохранении качества.
  • Декодирование: На последнем этапе из сжатого видео декодируется выходное видео 1080p.
Рис 5. Как работает Veo.

Убедительный пример кинопроизводства

Чтобы проверить возможности Veo, Google объединился с режиссером Дональдом Гловером и его творческой студией Gilga. С помощью Veo они исследовали различные творческие приемы, в том числе динамичные следящие кадры, которые требуют точного движения и последовательного кадрирования. 

Рис 6. Использование Veo в процессе создания фильма.

Традиционно кинематографисты сталкиваются с ограничениями, связанными с нехваткой времени и ресурсов. С помощью Veo Гловер и его команда могли быстро экспериментировать и генерировать сложные кадры, что, в свою очередь, обеспечило большую гибкость и инновации в процессе съемок.

С помощью Veo Гловер и его команда могли быстро экспериментировать и генерировать сложные кадры до начала реальных съемок. Например, они могли протестировать различные динамические трекинговые кадры, чтобы посмотреть, как они будут выглядеть, и при необходимости внести коррективы. Такой процесс предварительной визуализации помог им доработать свои идеи и убедиться, что кадры будут работать так, как задумано, что в итоге позволило сократить количество дублей, необходимых во время реальных съемок. Они смогли создать убедительный кейс, демонстрирующий потенциал Veo в изменении киноиндустрии. Она предлагает более быстрый и эффективный способ воплощения творческих замыслов в жизнь.

Практическое использование Veo в различных отраслях промышленности 

Передовые возможности Veo по созданию видео находят практическое применение во многих отраслях. В рекламе он может быстро создавать индивидуальные высококачественные ролики для целевой аудитории, экономя время и затраты на производство. В образовании Veo может создавать увлекательные обучающие видеоролики, делая сложные концепции более понятными. 

Бизнесмены могут использовать Veo для обучения и корпоративных коммуникаций. Профессионалы в области здравоохранения могут использовать Veo для симуляции медицинских процедур в целях обучения. Что касается виртуальных мероприятий и конференций, то Veo может создавать реалистичные симуляции мест и сцен, предлагая посетителям увлекательный и интерактивный опыт из любого места. Организаторы выигрывают от расширения охвата и ценных идей для будущих мероприятий. Благодаря Veo открылись бесчисленные возможности.

Когда модель ИИ потенциально может затронуть разные отрасли, важно помнить о безопасности и этичности ИИ. Чтобы обеспечить более широкое внедрение и ответственное использование, Google реализовал несколько мер безопасности. Видеоролики, созданные Veo, помечены водяными знаками с помощью SynthID - инструмента для нанесения водяных знаков и идентификации контента, созданного ИИ. SynthID обеспечивает прозрачность и помогает снизить риски, связанные с конфиденциальностью, авторскими правами и предвзятостью. Кроме того, все созданные видео проходят через фильтры безопасности и процессы проверки запоминания. Эти меры предосторожности делают Veo ценным и этичным инструментом, поддерживающим ответственное и инновационное видеопроизводство.

Где получить доступ к Veo

В ближайшие недели Google начнет предлагать некоторые из революционных функций Veo избранным создателям с помощью VideoFX - нового инструмента, доступного на сайте labs.google. Эта инициатива открывает ранний доступ к расширенным возможностям Veo по созданию видео, давая создателям возможность поэкспериментировать с его инновационными функциями. В настоящее время открыт список ожидания для Veo, приглашающий заинтересованных создателей записаться и использовать мощные инструменты Veo в своих проектах.

Подробнее об обновлениях генеративного ИИ от DeepMind в 2024 году

Помимо Veo, DeepMind представила несколько передовых обновлений в области генеративного ИИ для 2024 года. Одно из этих обновлений - Imagen 3, самая продвинутая модель преобразования текста в изображение. Imagen 3 отлично справляется с созданием фотореалистичных, реалистичных изображений. Он глубоко понимает подсказки естественного языка и улавливает мельчайшие детали, сводя к минимуму визуальные артефакты.

Рис. 7. Изображение, сгенерированное с помощью Imagen 3.

DeepMind также разработала Lyria, свою самую продвинутую модель для генерации музыки ИИ. В рамках этой работы DeepMind создала набор инструментов музыкального ИИ под названием Music AI Sandbox. Эти инструменты позволяют музыкантам и продюсерам исследовать новые творческие возможности в области музыкальной композиции и преобразования звука.

Рис. 8. Пример пользовательского интерфейса музыкальных инструментов ИИ от DeepMind.

Как и в случае с Veo, DeepMind реализовала несколько мер безопасности и в отношении других своих обновлений. SynthID будет использоваться во всех этих обновлениях как инструмент для нанесения водяных знаков и идентификации контента, созданного ИИ. Эти обновления от DeepMind обещают преобразовать различные отрасли, предлагая передовые, эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента.

Навигация по следующему этапу генеративного ИИ

Усовершенствования генеративного ИИ от DeepMind в 2024 году, включая Veo, Imagen 3 и Lyria, знаменуют собой значительный скачок в развитии возможностей ИИ. Veo преобразует создание видео благодаря своей способности генерировать высококачественные видеоролики 1080p по простым подсказкам, что делает его универсальным инструментом для режиссеров и создателей контента. Imagen 3 блистает в создании фотореалистичных изображений, а Lyria открывает новые возможности в создании музыки с помощью продвинутых инструментов искусственного интеллекта.

Эти технологии обещают преобразить различные отрасли, предоставив эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента. Благодаря таким мерам безопасности, как SynthID, обеспечивающим этичное использование, DeepMind продолжает расширять границы ИИ, прокладывая путь для инновационных приложений в будущем.

Погрузись в мир ИИ, посетив наш репозиторий на GitHub и присоединившись к нашему сообществу. Изучи страницы наших решений, чтобы узнать, как ИИ применяется в производстве и сельском хозяйстве.

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

How AI in Renewable Energy Supports Sustainability
Видение искусственного интеллекта
Achieving Retail Efficiency with AI
Видение искусственного интеллекта
Facial Recognition Applications in AI
Видение искусственного интеллекта

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения