Verificação verde
Link copiado para a área de transferência

Meta Movie Gen: Reimaginar a criação de conteúdos

Vê como o Meta Movie Gen está a redefinir a criação de vídeo e som. Aprende como este modelo oferece uma edição de vídeo precisa e suporta a criação de suportes personalizados.

Quer sejas um aspirante a cineasta ou um criador de conteúdos que gosta de fazer vídeos para o teu público, ter ferramentas de IA que expandam a tua criatividade é sempre útil. Recentemente, a Meta lançou o seu mais recente modelo de vídeo generativo, conhecido como Meta Movie Gen. 

Prevê-se que o mercado global de IA generativa nos meios de comunicação e entretenimento atinja 11,57 mil milhões de dólares até 2033, com empresas como a Runway, a OpenAI e a Meta a liderarem o caminho das inovações revolucionárias. O Meta Movie Gen, em particular, é ótimo para aplicações como a realização de filmes, a criação de conteúdos de vídeo e a narração de histórias digitais, tornando mais fácil do que nunca dar vida a visões criativas através de vídeos de alta qualidade gerados por IA. Neste artigo, vamos explorar o Meta Movie Gen e o seu funcionamento. Também analisaremos mais de perto algumas das suas aplicações. Toca a começar!

Fig. 1. Um fotograma de um clip de vídeo gerado com o Meta Movie Gen.

O que é o Meta Movie Gen?

Antes de falarmos sobre o que é a Meta Movie Gen, vamos ver como surgiu. 

Os esforços de investigação da Meta relacionados com a IA generativa começaram com a sua série de modelos Make-A-Scene. Esta investigação centra-se num método de IA generativa multimodal que ajuda os artistas e visionários a dar vida à sua imaginação. Os artistas podem introduzir imagens, áudio, vídeos ou animações 3D para obterem a imagem que desejam. O salto seguinte em termos de inovação veio com modelos de difusão como os modelos Llama Image Foundation(Emu), que permitiram gerar imagens e vídeos de muito maior qualidade e possibilitaram a edição de imagens.

Fig. 2. Um exemplo de utilização do esboço e da introdução de texto do Make-A-Scene para obter uma imagem gerada.

O Movie Gen é a mais recente contribuição da Meta para a investigação em IA generativa. Combina todas as modalidades anteriormente mencionadas e permite um controlo ainda mais fino para que as pessoas possam utilizar os modelos de formas mais criativas. O Meta Movie Gen é uma coleção de modelos fundamentais para gerar diferentes tipos de media, incluindo texto para vídeo, texto para áudio e texto para imagem. Consiste em quatro modelos, que são treinados numa combinação de conjuntos de dados licenciados e publicamente disponíveis. 

Segue-se uma breve descrição destes modelos:

  • Modelo de vídeo Movie Gen: Um modelo de 30 biliões de parâmetros que gera vídeos de alta qualidade a partir de instruções de texto. 
  • Modelo Movie Gen Audio: Um modelo de 13 mil milhões de parâmetros que pode criar bandas sonoras que se sincronizam com o conteúdo de vídeo. 
  • Modelo de vídeo de geração de filmes personalizados: Gera vídeos de indivíduos específicos com base num pedido de texto e numa única imagem, mantendo a sua semelhança. 
  • Modelo Movie Gen Edit: O modelo permite edições de vídeo detalhadas e baseadas em texto para vídeos reais e fictícios. 

Treinar o modelo de vídeo Meta Movie Gen

A criação e o treino do modelo Movie Gen Video envolveram vários processos fundamentais. O primeiro passo envolveu a recolha e a preparação de dados visuais, incluindo imagens e clips de vídeo, principalmente de actividades humanas filtradas em termos de qualidade, movimento e relevância. Os dados foram depois emparelhados com legendas de texto que explicavam o que estava a acontecer em cada cena. As legendas, geradas utilizando o modelo LLaMa3-Video da Meta, forneceram pormenores ricos sobre o conteúdo de cada cena, melhorando as capacidades de narração visual do modelo.

Figura 3. Uma visão geral do pipeline de curadoria de dados de pré-treino do modelo Movie Gen Video.

O processo de treino começou com o modelo a aprender a transformar texto em imagens de baixa resolução. Em seguida, avança para a criação de clips de vídeo completos através de uma combinação de formação de texto para imagem e de texto para vídeo, utilizando imagens de qualidade crescente. 

Uma ferramenta denominada Temporal Autoencoder (TAE) comprimiu os vídeos para gerir eficazmente grandes volumes de dados. O ajuste fino melhorou ainda mais a qualidade do vídeo, e um método chamado média de modelos (combina várias saídas de modelos para obter resultados mais suaves e consistentes) garantiu uma maior consistência das saídas. Finalmente, o vídeo, inicialmente a 768p, foi melhorado para uma resolução nítida de 1080p utilizando uma técnica de upsampler espacial, que aumenta a resolução da imagem adicionando dados de píxeis para obter imagens mais nítidas. O resultado foram resultados de vídeo detalhados e de alta qualidade.

Explorar as capacidades de geração de meta-filmes

Os modelos do Meta Movie Gen suportam principalmente quatro habilidades diferentes. Vamos dar uma vista de olhos a cada uma delas.

Geração de vídeo e áudio

O Meta Movie Gen pode gerar vídeos de alta qualidade. Estes clips de vídeo podem ter até 16 segundos de duração e correr a 16 fps (frames por segundo), criando imagens realistas que captam movimentos, interações e ângulos de câmara a partir de mensagens de texto. Em conjunto com o modelo de áudio de 13 mil milhões de parâmetros, pode produzir áudio sincronizado, incluindo sons ambiente, efeitos Foley e música, para combinar com os visuais. 

Esta configuração garante uma experiência perfeita e realista, em que tanto o visual como o áudio se mantêm alinhados e realistas em várias cenas e avisos. Por exemplo, estes modelos foram utilizados para criar clips de vídeo do hipopótamo pigmeu viral da Tailândia, chamado Moo Deng.

Fig. 4. Um fotograma de um clip de vídeo de Moo Deng feito com o Movie Gen do Meta.

Geração de vídeos personalizados

Outra capacidade interessante do modelo Meta Movie Gen é a geração de vídeos personalizados. Os utilizadores podem fornecer a imagem de uma pessoa e um texto descrevendo como o clip de vídeo deve ser gerado, resultando num vídeo que inclui a pessoa de referência e incorpora os detalhes visuais especificados no texto. O modelo utiliza ambas as entradas (imagem e texto) para manter a aparência única da pessoa e os movimentos naturais do corpo, ao mesmo tempo que segue com precisão a cena descrita na mensagem.

Fig. 5. Um exemplo da capacidade de geração de vídeo personalizado do modelo.

Edição de vídeo precisa 

Utilizando o modelo Movie Gen Edit, os utilizadores podem fornecer um clip de vídeo e uma mensagem de texto como entrada para editar o vídeo de forma criativa. O modelo combina a geração de vídeo com a edição avançada de imagens para realizar edições muito específicas, como adicionar, remover ou substituir elementos. Também pode efetuar alterações globais, como modificar o fundo do clip de vídeo ou o estilo geral. Mas o que torna o modelo verdadeiramente único é a sua precisão: pode selecionar apenas os pixels específicos que necessitam de edição e deixar o resto intacto. Assim, preserva o conteúdo original tanto quanto possível. 

Fig. 6. Vários exemplos das capacidades de edição de vídeo do modelo Movie Gen Edit.

Ferramentas de Benchmarking da Meta Movie Gen

Juntamente com os modelos de IA generativa, a Meta também apresentou o Movie Gen Bench, um conjunto de ferramentas de avaliação comparativa para testar o desempenho dos modelos de IA generativa. Inclui duas ferramentas principais: Movie Gen Video Bench e Movie Gen Audio Bench. Ambas foram concebidas para testar diferentes aspectos da geração de vídeo e áudio.

Aqui tens uma visão geral de ambas as ferramentas:

  • Banco de vídeos Movie Gen: Consiste em 1003 pedidos que abrangem uma grande variedade de categorias de teste, como actividades humanas, animais, paisagens naturais, física, bem como temas e actividades invulgares. O que torna esta referência de avaliação especialmente valiosa é a sua cobertura de níveis de movimento, o que garante que o modelo de geração de vídeo é testado tanto para sequências de ritmo rápido como para sequências mais lentas.
  • Movie Gen Audio Bench: Foi concebido para testar as capacidades de geração de áudio através de 527 pedidos. Estes avisos são emparelhados com vídeos gerados para avaliar a capacidade do modelo para sincronizar efeitos sonoros e música com o conteúdo visual.
Figura 7. O diagrama mostra uma análise dos avisos de avaliação, com uma lista de conceitos à esquerda e uma nuvem de palavras de substantivos e verbos normalmente utilizados à direita.

Uma aplicação prática do Meta Movie Gen

Agora que já falámos sobre o que são os modelos Meta Movie Gen e como funcionam, vamos explorar uma das suas aplicações práticas. 

Movie Gen Inovações da IA na produção de filmes

Uma das utilizações mais interessantes do Movie Gen da Meta é a forma como pode transformar a produção de filmes através da criação de vídeo e áudio com recurso a IA. Com o Movie Gen, os criadores podem gerar imagens e sons de alta qualidade a partir de simples instruções de texto, abrindo novas formas de contar histórias. 

De facto, a Meta juntou-se à Blumhouse e a um grupo de realizadores, recolhendo os seus comentários sobre a forma como o Movie Gen pode apoiar melhor o processo criativo. Cineastas como Aneesh Chaganty, as Spurlock Sisters e Casey Affleck testaram a capacidade da ferramenta para captar a disposição, o tom e a direção visual. Eles descobriram que os modelos ajudaram a despertar novas idéias.

Este programa piloto demonstrou que, embora o Movie Gen não substitua a produção tradicional de filmes, oferece aos realizadores uma nova forma de experimentar elementos visuais e sonoros de forma rápida e criativa. Os realizadores também apreciaram o facto de as funcionalidades de edição da ferramenta lhes permitirem brincar mais livremente com sons de fundo, efeitos e estilos visuais. 

Fig. 8. Um fotograma de uma curta-metragem criada com o Meta Movie Gen.

Principais conclusões

O Meta Movie Gen é um passo em frente na utilização de IA generativa para criar vídeos e sons de alta qualidade a partir de descrições de texto simples. A ferramenta ajuda os utilizadores a criar facilmente vídeos realistas e personalizados. Com capacidades como a edição de vídeo precisa e a criação de suportes personalizados, o Meta Movie Gen oferece um conjunto de ferramentas flexível que abre novas possibilidades para contar histórias, fazer filmes e muito mais. Ao facilitar a criação de imagens detalhadas e úteis, o Meta Movie Gen está a transformar a forma como os vídeos são feitos e utilizados em diferentes áreas e a estabelecer um novo padrão para a criação de conteúdos orientados para a IA.

Para saber mais, visita o nosso repositório GitHub e participa na nossa comunidade. Explora as aplicações de IA em carros autónomos e na agricultura nas nossas páginas de soluções. 🚀

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática