Más información sobre Veo, el último modelo de vídeo generativo de Google DeepMind, que puede crear sin esfuerzo vídeos de alta calidad a 1080P a partir de texto, imágenes y vídeos.
Durante la presentación 2024 I/O deGoogle el 14 de mayo, compartieron las últimas actualizaciones de DeepMind, su división de IA. Uno de los avances más interesantes que compartieron fue su nuevo modelo de vídeo generativo, Veo. Veo puede crear vídeos de alta calidad a 1080P a partir de texto, imágenes y vídeos. Incluso te permite editar los vídeos generados con indicaciones posteriores. Veo lleva la IA generativa al siguiente nivel. Echemos un vistazo más de cerca a las funciones que ofrece Veo.
Veo es un modelo de vídeo generativo que utiliza un profundo conocimiento del lenguaje y los elementos visuales para crear vídeos que se ajusten a la visión creativa del usuario. Puede captar con precisión el tono y los detalles de indicaciones más largas, lo que lo convierte en una poderosa herramienta para los creadores que quieren transformar sus ideas en contenidos de vídeo precisos.
El usuario puede tener un control creativo sin precedentes sobre el vídeo generado, porque Veo puede entender técnicas cinematográficas como "timelapse" y "tomas aéreas de un paisaje". Este control creativo hace posible que los usuarios creen vídeos en los que personas, animales y objetos se mueven con naturalidad. Los vídeos generados por Veo son atractivos y visualmente atrayentes porque es difícil darse cuenta de que han sido generados por un modelo de IA.
Veo va más allá de la mera creación de vídeos a partir de indicaciones. Si proporcionas un vídeo generado previamente y una solicitud de edición específica, como insertar kayaks en una vista aérea de una costa, Veo puede integrar perfectamente este cambio en el vídeo original, produciendo una versión actualizada.
Aquí tienes más funciones que ofrece Veo:
Veamos algunos de los vídeos que ha generado Veo y por qué es tan impresionante.
Generar un vídeo de un timelapse a partir de una breve indicación de texto es todo un reto. Normalmente, el texto breve no puede transmitir con precisión los cambios y movimientos dentro de la escena del timelapse. Por eso, es sorprendente que Veo pueda entender qué esperar de un timelapse sin entrar en detalles.
Del mismo modo, generar vídeos con una física precisa no es fácil. El modelo de IA debe comprender y simular leyes físicas como la gravedad, el impulso y las colisiones para que los movimientos y las interacciones parezcan realistas. Es impresionante que Veo sea capaz de modelar con precisión estas dinámicas sin una guía detallada de indicaciones de texto.
Hasta ahora, sólo habíamos visto vídeos más cortos generados por IA debido a las limitaciones computacionales y a la complejidad de mantener la coherencia en secuencias más largas. En la presentación 2024 I/O de Googlese mostró la alucinante capacidad de Veo para crear vídeos más largos e intrincados.
Como muchos otros modelos de IA, Veo se apoya en los hombros de gigantes. Se basa en avances anteriores como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, así como en la arquitectura Transformer y Gemini, propiedad de Google. Además, para mejorar la capacidad de Veo de interpretar las indicaciones con precisión, los subtítulos de cada vídeo de su conjunto de datos de entrenamiento eran más detallados.
Basándonos en el modelo aproximado de flujo de trabajo compartido por Google, así es como funciona Veo:
Para probar las capacidades de Veo, Google se asoció con el cineasta Donald Glover y su estudio creativo, Gilga. Utilizaron Veo para explorar varias técnicas creativas, como las tomas de seguimiento dinámico, que requieren un movimiento preciso y un encuadre consistente.
Tradicionalmente, los cineastas se enfrentan a limitaciones por falta de tiempo y recursos. Con Veo, Glover y su equipo podían experimentar rápidamente y generar planos complejos, lo que, a su vez, proporcionaba más flexibilidad e innovación en el proceso de realización.
Con Veo, Glover y su equipo podían experimentar rápidamente y generar planos complejos antes del rodaje real. Por ejemplo, podían probar varias tomas de seguimiento dinámico para ver cómo quedarían y hacer los ajustes necesarios. Este proceso de visualización previa les ayudó a perfeccionar sus ideas y a asegurarse de que las tomas funcionarían según lo previsto, reduciendo en última instancia el número de tomas necesarias durante el rodaje real. Pudieron crear un estudio de caso convincente para demostrar el potencial de Veo para cambiar la industria cinematográfica. Ofrece una forma más rápida y eficaz de dar vida a visiones creativas.
Las avanzadas capacidades de generación de vídeo de Veo tienen aplicaciones prácticas en muchos sectores. En publicidad, puede producir rápidamente anuncios personalizados de alta calidad para audiencias específicas, ahorrando tiempo y costes de producción. En educación, Veo puede crear atractivos vídeos instructivos que facilitan la comprensión de conceptos complejos.
Las empresas pueden utilizar Veo para formación y comunicaciones corporativas. Los profesionales sanitarios pueden utilizar Veo para simular procedimientos médicos con fines formativos. En cuanto a eventos y conferencias virtuales, Veo puede crear simulaciones realistas de recintos y escenarios, ofreciendo a los asistentes una experiencia atractiva e interactiva desde cualquier lugar. Los organizadores se benefician de un mayor alcance y de valiosos conocimientos para futuros eventos. Gracias a Veo, se han abierto innumerables oportunidades.
Cuando un modelo de IA tiene el potencial de afectar a distintos sectores, es importante tener en cuenta la seguridad y la ética de la IA. Para permitir una adopción más amplia y garantizar un uso responsable, Google ha puesto en marcha varias medidas de seguridad. Los vídeos creados por Veo llevan una marca de agua utilizando SynthID, una herramienta para poner marcas de agua e identificar contenidos generados por IA. El SynthId garantiza la transparencia y ayuda a mitigar los riesgos para la privacidad, los derechos de autor y la parcialidad. Además, todos los vídeos generados pasan por filtros de seguridad y procesos de comprobación de memorización. Estas salvaguardas hacen de Veo una herramienta valiosa y ética que apoya la producción de vídeo responsable e innovadora.
En las próximas semanas, Google empezará a ofrecer algunas de las innovadoras funciones de Veo a creadores seleccionados a través de VideoFX, una nueva herramienta disponible en los laboratorios.google. Esta iniciativa permite un acceso temprano a las capacidades avanzadas de generación de vídeo de Veo, dando a los creadores la oportunidad de experimentar con sus innovadoras funciones. La lista de espera para Veo está actualmente abierta, invitando a los creadores interesados a inscribirse y utilizar las potentes herramientas de Veo en sus proyectos.
Aparte de Veo, DeepMind ha introducido varias actualizaciones de vanguardia en IA generativa para 2024. Una de estas actualizaciones es Imagen 3, su modelo texto-imagen más avanzado hasta la fecha. Imagen 3 destaca en la creación de imágenes fotorrealistas y realistas. Comprende profundamente las indicaciones del lenguaje natural y capta detalles intrincados minimizando los artefactos visuales.
DeepMind también ha desarrollado Lyria, su modelo más avanzado para la generación de música por IA. Como parte de este esfuerzo, DeepMind ha creado un conjunto de herramientas de IA musical llamado Music AI Sandbox. Estas herramientas permiten a músicos y productores explorar nuevas posibilidades creativas en la composición musical y la transformación del sonido.
De forma similar a Veo, DeepMind también ha implementado varias medidas de seguridad en sus otras actualizaciones. El SynthID se utilizará en todas estas actualizaciones como herramienta para poner marcas de agua e identificar los contenidos generados por IA. Estas actualizaciones de DeepMind prometen transformar varias industrias ofreciendo herramientas avanzadas, eficientes y responsables para crear contenidos visuales y sonoros de alta calidad.
Los avances en IA generativa de DeepMind para 2024, como Veo, Imagen 3 y Lyria, suponen un salto considerable en las capacidades de la IA. Veo transforma la creación de vídeo con su capacidad para generar vídeos de alta calidad a 1080p a partir de sencillas instrucciones, lo que la convierte en una herramienta versátil para cineastas y creadores de contenidos. Imagen 3 brilla en la producción de imágenes fotorrealistas, mientras que Lyria introduce nuevas posibilidades en la generación de música con herramientas avanzadas de IA.
Estas tecnologías prometen transformar diversas industrias proporcionando herramientas eficaces y responsables para crear contenidos visuales y sonoros de alta calidad. Con medidas de seguridad como SynthID, que garantizan un uso ético, DeepMind sigue ampliando los límites de la IA, allanando el camino para aplicaciones innovadoras en el futuro.
Sumérgete en la IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Explora nuestras páginas de soluciones para saber cómo se aplica la IA en la fabricación y la agricultura.
Comienza tu viaje con el futuro del aprendizaje automático