X
Ultralytics YOLOv8.2 LiberaciónUltralytics YOLOv8.2 LiberaciónUltralytics YOLOv8.2 Flecha de liberación
Cheque verde
Enlace copiado en el portapapeles

Generar vídeos con Veo de Google DeepMind

Más información sobre Veo, el último modelo de vídeo generativo de Google DeepMind que puede crear sin esfuerzo vídeos de alta calidad a 1080P a partir de texto, imágenes y vídeos.

Durante la presentación de Google 2024 I/O el 14 de mayo, compartieron las últimas actualizaciones de DeepMind, su división de IA. Uno de los avances más interesantes que compartieron fue su nuevo modelo de vídeo generativo, Veo. Veo puede crear vídeos de alta calidad a 1080P a partir de texto, imágenes y vídeos. Incluso te permite editar los vídeos generados con indicaciones posteriores. Veo lleva la IA generativa al siguiente nivel. Echemos un vistazo más de cerca a las funciones que ofrece Veo. 

Comprender las capacidades de Veo

Veo es un modelo de vídeo generativo que utiliza un profundo conocimiento del lenguaje y los elementos visuales para crear vídeos que se ajusten a la visión creativa del usuario. Puede captar con precisión el tono y los detalles de indicaciones más largas, lo que lo convierte en una poderosa herramienta para los creadores que quieren transformar sus ideas en contenidos de vídeo precisos.

El usuario puede tener un control creativo sin precedentes sobre el vídeo generado, porque Veo puede entender técnicas cinematográficas como "timelapse" y "tomas aéreas de un paisaje". Este control creativo hace posible que los usuarios creen vídeos en los que personas, animales y objetos se mueven con naturalidad. Los vídeos generados por Veo son atractivos y visualmente atrayentes porque es difícil darse cuenta de que han sido generados por un modelo de IA.

Veo va más allá de la mera creación de vídeos a partir de indicaciones. Si proporcionas un vídeo generado previamente y una solicitud de edición específica, como insertar kayaks en una vista aérea de una costa, Veo puede integrar perfectamente este cambio en el vídeo original, produciendo una versión actualizada.

Fig. 1. Un ejemplo de edición de vídeo con Veo.

Aquí tienes más funciones que ofrece Veo:

  • Edición enmascarada: Veo puede ayudarte a editar áreas definidas de un vídeo.
  • Creación de vídeos inspirados en imágenes: Utilizando una imagen y un texto, Veo puede generar vídeos que reflejen el estilo de la imagen y sigan las instrucciones del texto.
  • Videoclips ampliados: Veo puede crear y ampliar videoclips hasta 60 segundos o más, a partir de una sola indicación o de una secuencia de indicaciones que juntas cuenten una historia.

Vídeos impresionantes generados por Veo

Veamos algunos de los vídeos que ha generado Veo y por qué es tan impresionante. 

Generar un vídeo de un timelapse a partir de una breve indicación de texto es todo un reto. Normalmente, el texto breve no puede transmitir con precisión los cambios y movimientos dentro de la escena del timelapse. Por eso, es sorprendente que Veo pueda entender qué esperar de un timelapse sin entrar en detalles. 

Fig. 2. Un fotograma del vídeo time-lapse generado por Veo.

Del mismo modo, generar vídeos con una física precisa no es fácil. El modelo de IA debe comprender y simular leyes físicas como la gravedad, el impulso y las colisiones para que los movimientos y las interacciones parezcan realistas. Es impresionante que Veo sea capaz de modelar con precisión estas dinámicas sin una guía detallada de indicaciones de texto.

Fig. 3. Un fotograma de un vídeo generado con Veo capta con precisión la física del movimiento de las medusas.

Hasta ahora, sólo habíamos visto vídeos más cortos generados por IA debido a las limitaciones computacionales y a la complejidad de mantener la coherencia en secuencias más largas. En la presentación de Google 2024 I/O se mostró la alucinante capacidad de Veo para crear vídeos más largos e intrincados.

Fig. 4. Fotogramas del vídeo Veo más largo mostrado en la presentación de Google 2024 I/O.

¿Cómo funciona Veo?

Como muchos otros modelos de IA, Veo se apoya en los hombros de gigantes. Se basa en avances anteriores como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, así como en la arquitectura Transformer y Gemini, propiedad de Google. Además, para mejorar la capacidad de Veo de interpretar las indicaciones con precisión, los subtítulos de cada vídeo de su conjunto de datos de entrenamiento eran más detallados. 

Basándonos en el modelo aproximado de flujo de trabajo compartido por Google, así es como funciona Veo:

  • Indicaciones de entrada: Proporcionas una pregunta de texto y, opcionalmente, una pregunta de imagen.
  • Codificación: La indicación de texto es procesada por un codificador UL2, y la indicación de imagen es procesada por un codificador de imagen.
  • Aviso incrustado: Las salidas de los codificadores de texto e imagen se combinan para formar un único aviso incrustado.
  • Modelo de difusión latente: La indicación incrustada y un vídeo comprimido ruidoso se pasan a este modelo, que genera un vídeo comprimido utilizándolos. Veo utiliza representaciones de vídeo comprimido de alta calidad, conocidas como latentes, para mejorar la eficacia manteniendo la calidad.
  • Descodificación: El paso final descodifica la salida de vídeo 1080p a partir del vídeo comprimido.
Fig 5. Cómo funciona Veo.

Un convincente estudio de caso sobre la realización cinematográfica

Para probar las capacidades de Veo, Google se asoció con el cineasta Donald Glover y su estudio creativo, Gilga. Utilizaron Veo para explorar varias técnicas creativas, como las tomas de seguimiento dinámico, que requieren un movimiento preciso y un encuadre consistente. 

Fig. 6. Utilización de Veo en el proceso de filmación.

Tradicionalmente, los cineastas se enfrentan a limitaciones por falta de tiempo y recursos. Con Veo, Glover y su equipo podían experimentar rápidamente y generar planos complejos, lo que, a su vez, proporcionaba más flexibilidad e innovación en el proceso de realización.

Con Veo, Glover y su equipo podían experimentar rápidamente y generar planos complejos antes del rodaje real. Por ejemplo, podían probar varias tomas de seguimiento dinámico para ver cómo quedarían y hacer los ajustes necesarios. Este proceso de visualización previa les ayudó a perfeccionar sus ideas y a asegurarse de que las tomas funcionarían según lo previsto, reduciendo en última instancia el número de tomas necesarias durante el rodaje real. Pudieron crear un estudio de caso convincente para demostrar el potencial de Veo para cambiar la industria cinematográfica. Ofrece una forma más rápida y eficaz de dar vida a visiones creativas.

Usos prácticos del Veo en diversas industrias 

Las avanzadas capacidades de generación de vídeo de Veo tienen aplicaciones prácticas en muchos sectores. En publicidad, puede producir rápidamente anuncios personalizados de alta calidad para audiencias específicas, ahorrando tiempo y costes de producción. En educación, Veo puede crear atractivos vídeos instructivos que facilitan la comprensión de conceptos complejos. 

Las empresas pueden utilizar Veo para formación y comunicaciones corporativas. Los profesionales sanitarios pueden utilizar Veo para simular procedimientos médicos con fines formativos. En cuanto a eventos y conferencias virtuales, Veo puede crear simulaciones realistas de recintos y escenarios, ofreciendo a los asistentes una experiencia atractiva e interactiva desde cualquier lugar. Los organizadores se benefician de un mayor alcance y de valiosos conocimientos para futuros eventos. Gracias a Veo, se han abierto innumerables oportunidades.

Cuando un modelo de IA tiene el potencial de afectar a distintos sectores, es importante tener en cuenta la seguridad y la ética de la IA. Para permitir una adopción más amplia y garantizar un uso responsable, Google ha puesto en marcha varias medidas de seguridad. Los vídeos creados por Veo llevan una marca de agua utilizando SynthID, una herramienta para poner marcas de agua e identificar el contenido generado por IA. El SynthId garantiza la transparencia y ayuda a mitigar los riesgos para la privacidad, los derechos de autor y la parcialidad. Además, todos los vídeos generados pasan por filtros de seguridad y procesos de comprobación de memorización. Estas salvaguardas hacen de Veo una herramienta valiosa y ética que apoya la producción de vídeo responsable e innovadora.

Dónde acceder a Veo

En las próximas semanas, Google empezará a ofrecer algunas de las innovadoras funciones de Veo a creadores seleccionados a través de VideoFX, una nueva herramienta disponible en labs.google. Esta iniciativa permite un acceso temprano a las capacidades avanzadas de generación de vídeo de Veo, dando a los creadores la oportunidad de experimentar con sus innovadoras funciones. La lista de espera para Veo está actualmente abierta, invitando a los creadores interesados a inscribirse y utilizar las potentes herramientas de Veo en sus proyectos.

Más sobre las actualizaciones de la IA Generativa 2024 de DeepMind

Aparte de Veo, DeepMind ha introducido varias actualizaciones de vanguardia en IA generativa para 2024. Una de estas actualizaciones es Imagen 3, su modelo texto-imagen más avanzado hasta la fecha. Imagen 3 destaca en la creación de imágenes fotorrealistas y realistas. Comprende profundamente las indicaciones del lenguaje natural y capta detalles intrincados minimizando los artefactos visuales.

Fig. 7. Imagen generada con Imagen 3.

DeepMind también ha desarrollado Lyria, su modelo más avanzado para la generación de música por IA. Como parte de este esfuerzo, DeepMind ha creado un conjunto de herramientas de IA musical llamado Music AI Sandbox. Estas herramientas permiten a músicos y productores explorar nuevas posibilidades creativas en la composición musical y la transformación del sonido.

Fig. 8. Ejemplo de interfaz de usuario de las herramientas musicales de IA de DeepMind.

De forma similar a Veo, DeepMind también ha implementado varias medidas de seguridad en sus otras actualizaciones. El SynthID se utilizará en todas estas actualizaciones como herramienta para poner marcas de agua e identificar los contenidos generados por IA. Estas actualizaciones de DeepMind prometen transformar varias industrias ofreciendo herramientas avanzadas, eficientes y responsables para crear contenidos visuales y sonoros de alta calidad.

Navegando por la próxima fase de la IA Generativa

Los avances en IA generativa de DeepMind para 2024, como Veo, Imagen 3 y Lyria, suponen un salto considerable en las capacidades de la IA. Veo transforma la creación de vídeo con su capacidad para generar vídeos de alta calidad a 1080p a partir de sencillas instrucciones, lo que la convierte en una herramienta versátil para cineastas y creadores de contenidos. Imagen 3 brilla en la producción de imágenes fotorrealistas, mientras que Lyria introduce nuevas posibilidades en la generación de música con herramientas avanzadas de IA.

Estas tecnologías prometen transformar diversas industrias proporcionando herramientas eficaces y responsables para crear contenidos visuales y sonoros de alta calidad. Con medidas de seguridad como SynthID, que garantizan un uso ético, DeepMind sigue ampliando los límites de la IA, allanando el camino para aplicaciones innovadoras en el futuro.

Sumérgete en la IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Explora nuestras páginas de soluciones para saber cómo se aplica la IA en la fabricación y la agricultura.

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático