Vê como o Meta Movie Gen está a redefinir a criação de vídeo e som. Aprende como este modelo oferece uma edição de vídeo precisa e suporta a criação de suportes personalizados.
Quer sejas um aspirante a cineasta ou um criador de conteúdos que gosta de fazer vídeos para o teu público, ter ferramentas de IA que expandam a tua criatividade é sempre útil. Recentemente, a Meta lançou o seu mais recente modelo de vídeo generativo, conhecido como Meta Movie Gen.
Prevê-se que o mercado global de IA generativa nos meios de comunicação e entretenimento atinja 11,57 mil milhões de dólares até 2033, com empresas como a Runway, a OpenAI e a Meta a liderarem o caminho das inovações revolucionárias. O Meta Movie Gen, em particular, é ótimo para aplicações como a realização de filmes, a criação de conteúdos de vídeo e a narração de histórias digitais, tornando mais fácil do que nunca dar vida a visões criativas através de vídeos de alta qualidade gerados por IA. Neste artigo, vamos explorar o Meta Movie Gen e o seu funcionamento. Também analisaremos mais de perto algumas das suas aplicações. Toca a começar!
Antes de falarmos sobre o que é a Meta Movie Gen, vamos ver como surgiu.
Os esforços de investigação da Meta relacionados com a IA generativa começaram com a sua série de modelos Make-A-Scene. Esta investigação centra-se num método de IA generativa multimodal que ajuda os artistas e visionários a dar vida à sua imaginação. Os artistas podem introduzir imagens, áudio, vídeos ou animações 3D para obterem a imagem que desejam. O salto seguinte em termos de inovação veio com modelos de difusão como os modelos Llama Image Foundation(Emu), que permitiram gerar imagens e vídeos de muito maior qualidade e possibilitaram a edição de imagens.
O Movie Gen é a mais recente contribuição da Meta para a investigação em IA generativa. Combina todas as modalidades anteriormente mencionadas e permite um controlo ainda mais fino para que as pessoas possam utilizar os modelos de formas mais criativas. O Meta Movie Gen é uma coleção de modelos fundamentais para gerar diferentes tipos de media, incluindo texto para vídeo, texto para áudio e texto para imagem. Consiste em quatro modelos, que são treinados numa combinação de conjuntos de dados licenciados e publicamente disponíveis.
Segue-se uma breve descrição destes modelos:
A criação e o treino do modelo Movie Gen Video envolveram vários processos fundamentais. O primeiro passo envolveu a recolha e a preparação de dados visuais, incluindo imagens e clips de vídeo, principalmente de actividades humanas filtradas em termos de qualidade, movimento e relevância. Os dados foram depois emparelhados com legendas de texto que explicavam o que estava a acontecer em cada cena. As legendas, geradas utilizando o modelo LLaMa3-Video da Meta, forneceram pormenores ricos sobre o conteúdo de cada cena, melhorando as capacidades de narração visual do modelo.
O processo de treino começou com o modelo a aprender a transformar texto em imagens de baixa resolução. Em seguida, avança para a criação de clips de vídeo completos através de uma combinação de formação de texto para imagem e de texto para vídeo, utilizando imagens de qualidade crescente.
Uma ferramenta denominada Temporal Autoencoder (TAE) comprimiu os vídeos para gerir eficazmente grandes volumes de dados. O ajuste fino melhorou ainda mais a qualidade do vídeo, e um método chamado média de modelos (combina várias saídas de modelos para obter resultados mais suaves e consistentes) garantiu uma maior consistência das saídas. Finalmente, o vídeo, inicialmente a 768p, foi melhorado para uma resolução nítida de 1080p utilizando uma técnica de upsampler espacial, que aumenta a resolução da imagem adicionando dados de píxeis para obter imagens mais nítidas. O resultado foram resultados de vídeo detalhados e de alta qualidade.
Os modelos do Meta Movie Gen suportam principalmente quatro habilidades diferentes. Vamos dar uma vista de olhos a cada uma delas.
O Meta Movie Gen pode gerar vídeos de alta qualidade. Estes clips de vídeo podem ter até 16 segundos de duração e correr a 16 fps (frames por segundo), criando imagens realistas que captam movimentos, interações e ângulos de câmara a partir de mensagens de texto. Em conjunto com o modelo de áudio de 13 mil milhões de parâmetros, pode produzir áudio sincronizado, incluindo sons ambiente, efeitos Foley e música, para combinar com os visuais.
Esta configuração garante uma experiência perfeita e realista, em que tanto o visual como o áudio se mantêm alinhados e realistas em várias cenas e avisos. Por exemplo, estes modelos foram utilizados para criar clips de vídeo do hipopótamo pigmeu viral da Tailândia, chamado Moo Deng.
Outra capacidade interessante do modelo Meta Movie Gen é a geração de vídeos personalizados. Os utilizadores podem fornecer a imagem de uma pessoa e um texto descrevendo como o clip de vídeo deve ser gerado, resultando num vídeo que inclui a pessoa de referência e incorpora os detalhes visuais especificados no texto. O modelo utiliza ambas as entradas (imagem e texto) para manter a aparência única da pessoa e os movimentos naturais do corpo, ao mesmo tempo que segue com precisão a cena descrita na mensagem.
Utilizando o modelo Movie Gen Edit, os utilizadores podem fornecer um clip de vídeo e uma mensagem de texto como entrada para editar o vídeo de forma criativa. O modelo combina a geração de vídeo com a edição avançada de imagens para realizar edições muito específicas, como adicionar, remover ou substituir elementos. Também pode efetuar alterações globais, como modificar o fundo do clip de vídeo ou o estilo geral. Mas o que torna o modelo verdadeiramente único é a sua precisão: pode selecionar apenas os pixels específicos que necessitam de edição e deixar o resto intacto. Assim, preserva o conteúdo original tanto quanto possível.
Juntamente com os modelos de IA generativa, a Meta também apresentou o Movie Gen Bench, um conjunto de ferramentas de avaliação comparativa para testar o desempenho dos modelos de IA generativa. Inclui duas ferramentas principais: Movie Gen Video Bench e Movie Gen Audio Bench. Ambas foram concebidas para testar diferentes aspectos da geração de vídeo e áudio.
Aqui tens uma visão geral de ambas as ferramentas:
Agora que já falámos sobre o que são os modelos Meta Movie Gen e como funcionam, vamos explorar uma das suas aplicações práticas.
Uma das utilizações mais interessantes do Movie Gen da Meta é a forma como pode transformar a produção de filmes através da criação de vídeo e áudio com recurso a IA. Com o Movie Gen, os criadores podem gerar imagens e sons de alta qualidade a partir de simples instruções de texto, abrindo novas formas de contar histórias.
De facto, a Meta juntou-se à Blumhouse e a um grupo de realizadores, recolhendo os seus comentários sobre a forma como o Movie Gen pode apoiar melhor o processo criativo. Cineastas como Aneesh Chaganty, as Spurlock Sisters e Casey Affleck testaram a capacidade da ferramenta para captar a disposição, o tom e a direção visual. Eles descobriram que os modelos ajudaram a despertar novas idéias.
Este programa piloto demonstrou que, embora o Movie Gen não substitua a produção tradicional de filmes, oferece aos realizadores uma nova forma de experimentar elementos visuais e sonoros de forma rápida e criativa. Os realizadores também apreciaram o facto de as funcionalidades de edição da ferramenta lhes permitirem brincar mais livremente com sons de fundo, efeitos e estilos visuais.
O Meta Movie Gen é um passo em frente na utilização de IA generativa para criar vídeos e sons de alta qualidade a partir de descrições de texto simples. A ferramenta ajuda os utilizadores a criar facilmente vídeos realistas e personalizados. Com capacidades como a edição de vídeo precisa e a criação de suportes personalizados, o Meta Movie Gen oferece um conjunto de ferramentas flexível que abre novas possibilidades para contar histórias, fazer filmes e muito mais. Ao facilitar a criação de imagens detalhadas e úteis, o Meta Movie Gen está a transformar a forma como os vídeos são feitos e utilizados em diferentes áreas e a estabelecer um novo padrão para a criação de conteúdos orientados para a IA.
Para saber mais, visita o nosso repositório GitHub e participa na nossa comunidade. Explora as aplicações de IA em carros autónomos e na agricultura nas nossas páginas de soluções. 🚀
Começa a tua viagem com o futuro da aprendizagem automática