Cheque verde
Enlace copiado en el portapapeles

Meta Movie Gen: Reimaginando la creación de contenidos

Mira cómo Meta Movie Gen está redefiniendo la creación de vídeo y sonido. Descubre cómo este modelo ofrece una edición de vídeo precisa y admite la creación multimedia personalizada.

Tanto si eres un aspirante a cineasta como un creador de contenidos que disfruta haciendo vídeos para su público, disponer de herramientas de IA que amplíen tu creatividad siempre es útil. Recientemente, Meta lanzó su último modelo de vídeo generativo, conocido como Meta Movie Gen. 

Se prevé que el mercado mundial de la IA generativa en los medios de comunicación y el entretenimiento alcance los 11.570 millones de dólares en 2033, con empresas como Runway, OpenAI y Meta a la cabeza de innovaciones revolucionarias. Meta Movie Gen, en particular, es ideal para aplicaciones como la realización de películas, la creación de contenidos de vídeo y la narración digital, haciendo más fácil que nunca dar vida a visiones creativas mediante vídeos de alta calidad generados por IA. En este artículo, exploraremos Meta Movie Gen y cómo funciona. También veremos más de cerca algunas de sus aplicaciones. ¡Empecemos!

Fig. 1. Fotograma de un videoclip generado con Meta Movie Gen.

¿Qué es Meta Movie Gen?

Antes de hablar de qué es Meta Movie Gen, veamos cómo surgió. 

Los esfuerzos de investigación de Meta relacionados con la IA generativa comenzaron con su serie de modelos Make-A-Scene. Esta investigación se centra en un método de IA generativa multimodal que ayuda a artistas y visionarios a dar vida a su imaginación. Los artistas pueden introducir imágenes, audio, vídeos o animaciones 3D para obtener el resultado que desean. El siguiente salto en innovación llegó con modelos de difusión como los modelos de la Fundación Llama Imagen(Emu), que permitieron generar imágenes y vídeos de mucha más calidad y posibilitaron la edición de imágenes.

Fig. 2. Un ejemplo de utilización del boceto de Make-A-Scene y la entrada de texto para obtener una imagen generada.

Movie Gen es la última contribución de Meta a la investigación de la IA generativa. Combina todas las modalidades mencionadas anteriormente y permite un control más preciso para que la gente pueda utilizar los modelos de formas más creativas. Meta Movie Gen es una colección de modelos fundacionales para generar diferentes tipos de medios, incluyendo texto a vídeo, texto a audio y texto a imagen. Consta de cuatro modelos, que se entrenan con una combinación de conjuntos de datos con licencia y de acceso público. 

Aquí tienes un resumen rápido de estos modelos:

  • Modelo de vídeo Movie Gen: Un modelo de 30 mil millones de parámetros que genera vídeos de alta calidad a partir de indicaciones de texto. 
  • Modelo de audio Movie Gen: Un modelo de 13.000 millones de parámetros que puede crear bandas sonoras sincronizadas con el contenido de vídeo. 
  • Modelo de vídeo personalizado Movie Gen: Genera vídeos de personas concretas a partir de una indicación de texto y una sola imagen, conservando su parecido. 
  • Modelo de edición de vídeo Gen: El modelo permite ediciones de vídeo detalladas y basadas en texto para vídeos reales y ficticios. 

Entrenamiento del modelo de vídeo Meta Movie Gen

En la creación y el entrenamiento del modelo Movie Gen Video intervinieron varios procesos clave. El primer paso consistió en recopilar y preparar datos visuales, incluidas imágenes y videoclips, principalmente de actividades humanas filtradas por calidad, movimiento y relevancia. A continuación, los datos se emparejaron con leyendas de texto que explicaban lo que ocurría en cada escena. Los subtítulos, generados mediante el modelo LLaMa3-Vídeo de Meta, proporcionaban detalles ricos sobre el contenido de cada escena, mejorando la capacidad de narración visual del modelo.

Fig. 3. Una visión general del proceso de curado de datos previo al entrenamiento del modelo Movie Gen Video.

El proceso de entrenamiento empezó con el modelo aprendiendo a transformar texto en imágenes de baja resolución. Luego progresó hasta crear videoclips completos mediante una combinación de entrenamiento de texto a imagen y de texto a vídeo, utilizando elementos visuales cada vez de mayor calidad. 

Una herramienta llamada Autocodificador Temporal (TAE) comprimió los vídeos para gestionar con eficacia grandes volúmenes de datos. El ajuste fino afinó aún más la calidad del vídeo, y un método llamado promediado de modelos (combina múltiples salidas de modelos para obtener resultados más suaves y coherentes) garantizó una mayor coherencia de la salida. Por último, el vídeo, inicialmente a 768p, se amplió a una resolución nítida de 1080p mediante una técnica de amplificación espacial, que aumenta la resolución de la imagen añadiendo datos de píxeles para obtener imágenes más claras. El resultado fue una salida de vídeo detallada y de alta calidad.

Explorar las capacidades de generación de meta películas

Los modelos de Meta Movie Gen soportan principalmente cuatro habilidades diferentes. Echemos un vistazo más de cerca a cada una de ellas.

Generación de vídeo y audio

Meta Movie Gen puede generar vídeos de alta calidad. Estos videoclips pueden durar hasta 16 segundos y ejecutarse a 16 fps (fotogramas por segundo), creando visuales realistas que capturan el movimiento, las interacciones y los ángulos de cámara a partir de indicaciones de texto. Emparejado con el modelo de audio de 13.000 millones de parámetros, puede producir audio sincronizado, incluidos sonidos ambientales, efectos Foley y música, a juego con los visuales. 

Esta configuración garantiza una experiencia fluida y realista, en la que tanto los visuales como el audio se mantienen alineados y realistas en diversas escenas e indicaciones. Por ejemplo, estos modelos se utilizaron para crear videoclips del hipopótamo pigmeo viral de Tailandia, llamado Moo Deng.

Fig. 4. Fotograma de un videoclip de Moo Deng realizado con Movie Gen de Meta.

Generación de vídeos personalizados

Otra capacidad interesante del modelo Meta Movie Gen es la generación de vídeos personalizados. Los usuarios pueden proporcionar la imagen de una persona y una indicación de texto que describa cómo debe generarse el videoclip, lo que da como resultado un vídeo que incluye a la persona de referencia e incorpora los ricos detalles visuales especificados en la indicación de texto. El modelo utiliza ambas entradas (imagen y texto) para mantener la apariencia única de la persona y sus movimientos corporales naturales, al tiempo que sigue con precisión la escena descrita en la indicación.

Fig. 5. Un ejemplo de la capacidad de generación de vídeos personalizados del modelo.

Edición precisa de vídeo 

Utilizando el modelo de Edición de Generación de Vídeo, los usuarios pueden proporcionar tanto un clip de vídeo como una indicación de texto como entrada para editar el vídeo de formas creativas. El modelo combina la generación de vídeo con la edición avanzada de imágenes para realizar ediciones muy específicas, como añadir, eliminar o sustituir elementos. También puede realizar cambios globales, como modificar el fondo del videoclip o el estilo general. Pero lo que hace que el modelo sea realmente único es su precisión: puede dirigirse sólo a los píxeles específicos que requieren edición y dejar el resto intacto. Esto preserva el contenido original en la medida de lo posible. 

Fig. 6. Varios ejemplos de las capacidades de edición de vídeo del modelo Movie Gen Edit.

Herramientas de evaluación comparativa de Meta Movie Gen

Junto con los modelos de IA generativa, Meta también presentó Movie Gen Bench, un conjunto de herramientas de evaluación comparativa para probar el rendimiento de los modelos de IA generativa. Viene con dos herramientas principales: Movie Gen Video Bench y Movie Gen Audio Bench. Ambas están diseñadas para probar distintos aspectos de la generación de vídeo y audio.

Aquí tienes un vistazo a ambas herramientas:

  • Banco de vídeos Movie Gen: Consta de 1003 indicaciones que cubren una amplia variedad de categorías de prueba, como actividades humanas, animales, escenarios naturales, física, así como temas y actividades poco habituales. Lo que hace que este banco de pruebas de evaluación sea especialmente valioso es su cobertura de niveles de movimiento, que garantiza que el modelo de generación de vídeo se pruebe tanto para secuencias de ritmo rápido como para secuencias más lentas.
  • Banco de Audio Movie Gen: Está diseñado para probar las capacidades de generación de audio a través de 527 indicaciones. Estas indicaciones se emparejan con vídeos generados para evaluar lo bien que el modelo puede sincronizar los efectos de sonido y la música con el contenido visual.
Fig. 7. El diagrama muestra un desglose de las indicaciones de evaluación, con una lista de conceptos a la izquierda y una nube de palabras de sustantivos y verbos de uso común a la derecha.

Una aplicación práctica de Meta Movie Gen

Ahora que ya hemos explicado qué son y cómo funcionan los modelos Meta Movie Gen, exploremos una de sus aplicaciones prácticas. 

Innovaciones de la IA en el cine

Uno de los usos más emocionantes de Movie Gen de Meta es cómo puede transformar la realización de películas mediante la creación de vídeo y audio impulsada por IA. Con Movie Gen, los creadores pueden generar imágenes y sonidos de alta calidad a partir de simples indicaciones de texto, abriendo nuevas formas de contar historias. 

De hecho, Meta se asoció con Blumhouse y un grupo de cineastas, recogiendo sus opiniones sobre cómo Movie Gen puede apoyar mejor el proceso creativo. Cineastas como Aneesh Chaganty, las hermanas Spurlock y Casey Affleck pusieron a prueba la capacidad de la herramienta para captar el estado de ánimo, el tono y la dirección visual. Descubrieron que los modelos ayudaban a generar nuevas ideas.

Este programa piloto ha demostrado que, aunque Movie Gen no sustituye al cine tradicional, ofrece a los directores una nueva forma de experimentar con elementos visuales y de audio de forma rápida y creativa. Los cineastas también apreciaron cómo las funciones de edición de la herramienta les permitían jugar con sonidos de fondo, efectos y estilos visuales con mayor libertad. 

Fig. 8. Fotograma de un cortometraje creado con Meta Movie Gen.

Puntos clave

Meta Movie Gen es un paso adelante en el uso de la IA generativa para hacer vídeos y sonidos de alta calidad a partir de simples descripciones de texto. La herramienta ayuda a los usuarios a crear fácilmente vídeos realistas y personalizados. Con capacidades como la edición precisa de vídeo y la generación de medios personalizados, Meta Movie Gen ofrece un conjunto de herramientas flexibles que abren nuevas posibilidades para la narración de historias, la realización de películas y mucho más. Al facilitar la creación de elementos visuales detallados y útiles, Meta Movie Gen está transformando la forma de hacer y utilizar vídeos en distintos campos y estableciendo un nuevo estándar para la creación de contenidos impulsada por la IA.

Para saber más, visita nuestro repositorio de GitHub y participa en nuestra comunidad. Explora las aplicaciones de la IA en los coches autónomos y la agricultura en nuestras páginas de soluciones. 🚀

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático