Mira cómo Meta Movie Gen está redefiniendo la creación de vídeo y sonido. Descubre cómo este modelo ofrece una edición de vídeo precisa y admite la creación multimedia personalizada.
Tanto si eres un aspirante a cineasta como un creador de contenidos que disfruta haciendo vídeos para su público, disponer de herramientas de IA que amplíen tu creatividad siempre es útil. Recientemente, Meta lanzó su último modelo de vídeo generativo, conocido como Meta Movie Gen.
Se prevé que el mercado mundial de la IA generativa en los medios de comunicación y el entretenimiento alcance los 11.570 millones de dólares en 2033, con empresas como Runway, OpenAI y Meta a la cabeza de innovaciones revolucionarias. Meta Movie Gen, en particular, es ideal para aplicaciones como la realización de películas, la creación de contenidos de vídeo y la narración digital, haciendo más fácil que nunca dar vida a visiones creativas mediante vídeos de alta calidad generados por IA. En este artículo, exploraremos Meta Movie Gen y cómo funciona. También veremos más de cerca algunas de sus aplicaciones. ¡Empecemos!
Antes de hablar de qué es Meta Movie Gen, veamos cómo surgió.
Los esfuerzos de investigación de Meta relacionados con la IA generativa comenzaron con su serie de modelos Make-A-Scene. Esta investigación se centra en un método de IA generativa multimodal que ayuda a artistas y visionarios a dar vida a su imaginación. Los artistas pueden introducir imágenes, audio, vídeos o animaciones 3D para obtener el resultado que desean. El siguiente salto en innovación llegó con modelos de difusión como los modelos de la Fundación Llama Imagen(Emu), que permitieron generar imágenes y vídeos de mucha más calidad y posibilitaron la edición de imágenes.
Movie Gen es la última contribución de Meta a la investigación de la IA generativa. Combina todas las modalidades mencionadas anteriormente y permite un control más preciso para que la gente pueda utilizar los modelos de formas más creativas. Meta Movie Gen es una colección de modelos fundacionales para generar diferentes tipos de medios, incluyendo texto a vídeo, texto a audio y texto a imagen. Consta de cuatro modelos, que se entrenan con una combinación de conjuntos de datos con licencia y de acceso público.
Aquí tienes un resumen rápido de estos modelos:
En la creación y el entrenamiento del modelo Movie Gen Video intervinieron varios procesos clave. El primer paso consistió en recopilar y preparar datos visuales, incluidas imágenes y videoclips, principalmente de actividades humanas filtradas por calidad, movimiento y relevancia. A continuación, los datos se emparejaron con leyendas de texto que explicaban lo que ocurría en cada escena. Los subtítulos, generados mediante el modelo LLaMa3-Vídeo de Meta, proporcionaban detalles ricos sobre el contenido de cada escena, mejorando la capacidad de narración visual del modelo.
El proceso de entrenamiento empezó con el modelo aprendiendo a transformar texto en imágenes de baja resolución. Luego progresó hasta crear videoclips completos mediante una combinación de entrenamiento de texto a imagen y de texto a vídeo, utilizando elementos visuales cada vez de mayor calidad.
Una herramienta llamada Autocodificador Temporal (TAE) comprimió los vídeos para gestionar con eficacia grandes volúmenes de datos. El ajuste fino afinó aún más la calidad del vídeo, y un método llamado promediado de modelos (combina múltiples salidas de modelos para obtener resultados más suaves y coherentes) garantizó una mayor coherencia de la salida. Por último, el vídeo, inicialmente a 768p, se amplió a una resolución nítida de 1080p mediante una técnica de amplificación espacial, que aumenta la resolución de la imagen añadiendo datos de píxeles para obtener imágenes más claras. El resultado fue una salida de vídeo detallada y de alta calidad.
Los modelos de Meta Movie Gen soportan principalmente cuatro habilidades diferentes. Echemos un vistazo más de cerca a cada una de ellas.
Meta Movie Gen puede generar vídeos de alta calidad. Estos videoclips pueden durar hasta 16 segundos y ejecutarse a 16 fps (fotogramas por segundo), creando visuales realistas que capturan el movimiento, las interacciones y los ángulos de cámara a partir de indicaciones de texto. Emparejado con el modelo de audio de 13.000 millones de parámetros, puede producir audio sincronizado, incluidos sonidos ambientales, efectos Foley y música, a juego con los visuales.
Esta configuración garantiza una experiencia fluida y realista, en la que tanto los visuales como el audio se mantienen alineados y realistas en diversas escenas e indicaciones. Por ejemplo, estos modelos se utilizaron para crear videoclips del hipopótamo pigmeo viral de Tailandia, llamado Moo Deng.
Otra capacidad interesante del modelo Meta Movie Gen es la generación de vídeos personalizados. Los usuarios pueden proporcionar la imagen de una persona y una indicación de texto que describa cómo debe generarse el videoclip, lo que da como resultado un vídeo que incluye a la persona de referencia e incorpora los ricos detalles visuales especificados en la indicación de texto. El modelo utiliza ambas entradas (imagen y texto) para mantener la apariencia única de la persona y sus movimientos corporales naturales, al tiempo que sigue con precisión la escena descrita en la indicación.
Utilizando el modelo de Edición de Generación de Vídeo, los usuarios pueden proporcionar tanto un clip de vídeo como una indicación de texto como entrada para editar el vídeo de formas creativas. El modelo combina la generación de vídeo con la edición avanzada de imágenes para realizar ediciones muy específicas, como añadir, eliminar o sustituir elementos. También puede realizar cambios globales, como modificar el fondo del videoclip o el estilo general. Pero lo que hace que el modelo sea realmente único es su precisión: puede dirigirse sólo a los píxeles específicos que requieren edición y dejar el resto intacto. Esto preserva el contenido original en la medida de lo posible.
Junto con los modelos de IA generativa, Meta también presentó Movie Gen Bench, un conjunto de herramientas de evaluación comparativa para probar el rendimiento de los modelos de IA generativa. Viene con dos herramientas principales: Movie Gen Video Bench y Movie Gen Audio Bench. Ambas están diseñadas para probar distintos aspectos de la generación de vídeo y audio.
Aquí tienes un vistazo a ambas herramientas:
Ahora que ya hemos explicado qué son y cómo funcionan los modelos Meta Movie Gen, exploremos una de sus aplicaciones prácticas.
Uno de los usos más emocionantes de Movie Gen de Meta es cómo puede transformar la realización de películas mediante la creación de vídeo y audio impulsada por IA. Con Movie Gen, los creadores pueden generar imágenes y sonidos de alta calidad a partir de simples indicaciones de texto, abriendo nuevas formas de contar historias.
De hecho, Meta se asoció con Blumhouse y un grupo de cineastas, recogiendo sus opiniones sobre cómo Movie Gen puede apoyar mejor el proceso creativo. Cineastas como Aneesh Chaganty, las hermanas Spurlock y Casey Affleck pusieron a prueba la capacidad de la herramienta para captar el estado de ánimo, el tono y la dirección visual. Descubrieron que los modelos ayudaban a generar nuevas ideas.
Este programa piloto ha demostrado que, aunque Movie Gen no sustituye al cine tradicional, ofrece a los directores una nueva forma de experimentar con elementos visuales y de audio de forma rápida y creativa. Los cineastas también apreciaron cómo las funciones de edición de la herramienta les permitían jugar con sonidos de fondo, efectos y estilos visuales con mayor libertad.
Meta Movie Gen es un paso adelante en el uso de la IA generativa para hacer vídeos y sonidos de alta calidad a partir de simples descripciones de texto. La herramienta ayuda a los usuarios a crear fácilmente vídeos realistas y personalizados. Con capacidades como la edición precisa de vídeo y la generación de medios personalizados, Meta Movie Gen ofrece un conjunto de herramientas flexibles que abren nuevas posibilidades para la narración de historias, la realización de películas y mucho más. Al facilitar la creación de elementos visuales detallados y útiles, Meta Movie Gen está transformando la forma de hacer y utilizar vídeos en distintos campos y estableciendo un nuevo estándar para la creación de contenidos impulsada por la IA.
Para saber más, visita nuestro repositorio de GitHub y participa en nuestra comunidad. Explora las aplicaciones de la IA en los coches autónomos y la agricultura en nuestras páginas de soluciones. 🚀
Comienza tu viaje con el futuro del aprendizaje automático