Verificação verde
Link copiado para a área de transferência

Gerar vídeos com Google DeepMind's Veo

Sabe mais sobre o Veo, o mais recente modelo de vídeo generativo da Google DeepMind, que pode criar facilmente vídeos 1080P de alta qualidade a partir de texto, imagem e instruções de vídeo.

Durante a apresentação I/O 2024 daGoogle no dia 14 de maio, foram partilhadas as últimas actualizações da DeepMind, a sua divisão de IA. Um dos avanços mais interessantes partilhados foi o seu mais recente modelo de vídeo generativo, Veo. O Veo pode criar vídeos 1080P de alta qualidade com base em texto, imagem e instruções de vídeo. Até te permite editar os vídeos gerados com sugestões subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos ver mais de perto as funcionalidades que o Veo oferece. 

Compreender as capacidades da Veo

O Veo é um modelo de vídeo generativo que utiliza uma compreensão profunda da linguagem e dos elementos visuais para criar vídeos que se aproximam da visão criativa do utilizador. Consegue captar com precisão o tom e os detalhes de pedidos mais longos, o que o torna uma ferramenta poderosa para os criadores que pretendem transformar as suas ideias em conteúdos de vídeo precisos.

O utilizador pode ter um controlo criativo inovador sobre o vídeo gerado, porque o Veo consegue compreender técnicas de filmagem como "timelapse" e "planos aéreos de uma paisagem". Este controlo criativo permite aos utilizadores criar vídeos em que pessoas, animais e objectos se movem naturalmente. Os vídeos gerados pelo Veo são cativantes e visualmente atraentes porque é difícil perceber que são gerados por um modelo de IA.

A Veo vai além da mera criação de vídeos a partir de prompts. Se forneceres um vídeo gerado anteriormente e um pedido de edição específico, como a inserção de caiaques numa vista aérea de uma linha costeira, a Veo pode integrar perfeitamente esta alteração no vídeo original, produzindo uma versão actualizada.

Fig. 1. Um exemplo de edição de vídeo utilizando o Veo.

Aqui tens mais algumas características que o Veo oferece:

  • Edição com máscara: O Veo pode ajudar-te a editar áreas definidas de um vídeo.
  • Criação de vídeos inspirados em imagens: Utilizando uma imagem e um pedido de texto, o Veo pode gerar vídeos que reflectem o estilo da imagem e seguem as instruções do pedido.
  • Clips de vídeo alargados: O Veo pode criar e prolongar clips de vídeo para 60 segundos ou mais, a partir de uma única pergunta ou de uma sequência de perguntas que, em conjunto, contam uma história.

Vídeos de cortar a respiração que a Veo produziu

Vamos ver alguns dos vídeos que a Veo produziu e porque é que é tão impressionante. 

Gerar um vídeo de um lapso de tempo a partir de um texto curto é um desafio. Normalmente, o texto curto não consegue transmitir com exatidão as mudanças e movimentos dentro da cena do lapso de tempo. Por isso, é espantoso que o Veo consiga perceber o que esperar de um timelapse sem entrar em pormenores. 

Fig. 2. Um fotograma do vídeo de lapso de tempo gerado por Veo.

Da mesma forma, gerar vídeos com física exacta não é fácil. O modelo de IA tem de compreender e simular as leis da física, como a gravidade, o momento e as colisões, para que os movimentos e as interacções pareçam realistas. É impressionante que o Veo seja capaz de modelar com precisão estas dinâmicas sem uma orientação pormenorizada de instruções de texto.

Fig. 3. Um fotograma de um vídeo gerado com o Veo capta com precisão a física do movimento da medusa.

Até agora, só vimos vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência em sequências mais longas. Na apresentação I/O 2024 da Googlefoi mostrada a capacidade alucinante da Veo para criar vídeos mais longos e complexos.

Fig. 4. Fotogramas do vídeo Veo mais longo exibido na apresentação Google 2024 I/O.

Como é que o Veo funciona?

Tal como muitos outros modelos de IA, o Veo assenta em ombros de gigantes. Recorre a avanços anteriores, como a Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, bem como à arquitetura proprietária Transformer e Gemini da Google. Além disso, para melhorar a capacidade do Veo de interpretar os avisos com precisão, as legendas de cada vídeo no seu conjunto de dados de treino foram mais detalhadas. 

Com base no modelo aproximado de fluxo de trabalho partilhado por Google, eis como funciona o Veo:

  • Solicitações de entrada: Fornece um pedido de texto e, opcionalmente, um pedido de imagem.
  • Codificação: O prompt de texto é processado por um codificador UL2 e o prompt de imagem é processado por um codificador de imagem.
  • Prompt incorporado: As saídas dos codificadores de texto e imagem são combinadas para formar um único prompt incorporado.
  • Modelo de difusão latente: O prompt incorporado e um vídeo compactado com ruído são passados para esse modelo, que gera um vídeo compactado usando-os. O Veo usa representações de vídeo compactado de alta qualidade, conhecidas como latentes, para melhorar a eficiência e manter a qualidade.
  • Decodificação: O passo final descodifica a saída de vídeo 1080p a partir do vídeo comprimido.
Figura 5. Como funciona o Veo.

Um estudo de caso convincente sobre a realização de filmes

Para testar as capacidades da Veo, Google juntou-se ao cineasta Donald Glover e ao seu estúdio criativo, Gilga. Utilizaram o Veo para explorar várias técnicas criativas, incluindo planos de seguimento dinâmicos, que exigem movimentos precisos e enquadramentos consistentes. 

Fig. 6. Usa o Veo no processo de produção de filmes.

Tradicionalmente, os realizadores enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e a sua equipa puderam experimentar e gerar rapidamente planos complexos, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de produção de filmes.

Com o Veo, Glover e a sua equipa puderam experimentar e gerar rapidamente planos complexos antes da filmagem. Por exemplo, podiam testar vários planos de seguimento dinâmico para ver como ficariam e fazer os ajustes necessários. Este processo de pré-visualização ajudou-os a refinar as suas ideias e a garantir que os planos funcionariam como pretendido, reduzindo assim o número de takes necessários durante as filmagens. Conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo para mudar a indústria cinematográfica. Oferece uma forma mais rápida e eficiente de dar vida a visões criativas.

Utilizações práticas do Veo em vários sectores 

As capacidades avançadas de geração de vídeo da Veo têm aplicações práticas em muitos sectores. Na publicidade, pode produzir rapidamente anúncios personalizados e de alta qualidade para públicos-alvo, poupando tempo e custos de produção. No sector da educação, a Veo pode criar vídeos de instrução cativantes, facilitando a compreensão de conceitos complexos. 

As empresas podem utilizar o Veo para formação e comunicações empresariais. Os profissionais de saúde podem utilizar a Veo para simular procedimentos médicos para fins de formação. No que diz respeito a eventos e conferências virtuais, a Veo pode criar simulações realistas de locais e palcos, oferecendo aos participantes uma experiência envolvente e interactiva a partir de qualquer lugar. Os organizadores beneficiam de um maior alcance e de informações valiosas para eventos futuros. Graças à Veo, abriram-se inúmeras oportunidades.

Quando um modelo de IA tem o potencial de afetar diferentes indústrias, é importante ter em conta a segurança e a ética da IA. Para permitir uma adoção mais ampla e garantir uma utilização responsável, Google implementou várias medidas de segurança. Os vídeos criados pela Veo são marcados com marcas de água utilizando o SynthID, uma ferramenta para marcar e identificar conteúdos gerados por IA. O SynthId garante a transparência e ajuda a mitigar os riscos de privacidade, direitos de autor e preconceitos. Para além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Estas salvaguardas fazem do Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.

Onde aceder ao Veo

Nas próximas semanas, Google começará a oferecer algumas das funcionalidades inovadoras do Veo a criadores seleccionados através do VideoFX, uma nova ferramenta disponível em labs.google. Esta iniciativa permite o acesso antecipado às capacidades avançadas de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentarem as suas características inovadoras. A lista de espera para o Veo está atualmente aberta, convidando os criadores interessados a inscreverem-se e a utilizarem as poderosas ferramentas do Veo nos seus projectos.

Mais sobre as actualizações da IA generativa da DeepMind para 2024

Para além do Veo, a DeepMind introduziu várias actualizações de ponta em IA generativa para 2024. Uma dessas actualizações é o Imagen 3, o seu modelo texto-imagem mais avançado até à data. O Imagen 3 é excelente na criação de imagens fotorrealistas e realistas. Compreende profundamente as solicitações de linguagem natural e capta detalhes intrincados, minimizando os artefactos visuais.

Fig. 7. Uma imagem gerada com o Imagen 3.

A DeepMind também desenvolveu o Lyria, o seu modelo mais avançado de geração de música por IA. Como parte deste esforço, a DeepMind criou um conjunto de ferramentas de IA musical chamado Music AI Sandbox. Estas ferramentas permitem aos músicos e produtores explorar novas possibilidades criativas na composição musical e na transformação do som.

Fig. 8. Um exemplo de interface de utilizador das ferramentas de música com IA da DeepMind.

À semelhança do Veo, a DeepMind também implementou várias medidas de segurança relativamente às suas outras actualizações. O SynthID será utilizado em todas estas actualizações como uma ferramenta de marca de água e de identificação de conteúdos gerados por IA. Estas actualizações da DeepMind prometem transformar várias indústrias, oferecendo ferramentas avançadas, eficientes e responsáveis para a criação de conteúdos visuais e áudio de alta qualidade.

Navegar na próxima fase da IA generativa

Os avanços da IA generativa da DeepMind em 2024, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeos com sua capacidade de gerar vídeos de alta qualidade em 1080p a partir de comandos simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 brilha na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na criação de música com ferramentas avançadas de IA.

Essas tecnologias prometem transformar vários setores, fornecendo ferramentas eficientes e responsáveis para a criação de conteúdo visual e de áudio de alta qualidade. Com medidas de segurança como o SynthID a garantir uma utilização ética, a DeepMind continua a expandir as fronteiras da IA, abrindo caminho para aplicações inovadoras no futuro.

Mergulha na IA visitando o nosso repositório GitHub e juntando-te à nossa comunidade. Explora as nossas páginas de soluções para saberes como a IA é aplicada no fabrico e na agricultura.

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática