Contrôle vert
Lien copié dans le presse-papiers

Meta Movie Gen : Réimaginer la création de contenu

Découvre comment Meta Movie Gen redéfinit la création vidéo et sonore. Découvre comment ce modèle offre un montage vidéo précis et prend en charge la création de médias personnalisés.

Que tu sois un cinéaste en herbe ou un créateur de contenu qui aime réaliser des vidéos pour ton public, il est toujours utile d'avoir des outils d'IA qui élargissent ta créativité. Récemment, Meta a lancé son dernier modèle de vidéo générative, connu sous le nom de Meta Movie Gen. 

Le marché mondial de l'IA générative dans les médias et le divertissement devrait atteindre 11,57 milliards de dollars d'ici 2033, avec des entreprises comme Runway, OpenAI et Meta qui ouvrent la voie à des innovations révolutionnaires. Meta Movie Gen, en particulier, est formidable pour des applications telles que la réalisation de films, la création de contenu vidéo et la narration numérique, ce qui rend plus facile que jamais de donner vie à des visions créatives grâce à des vidéos de haute qualité générées par l'IA. Dans cet article, nous allons explorer Meta Movie Gen et son fonctionnement. Nous examinerons également de plus près certaines de ses applications. C'est parti !

Fig 1. Image d'un clip vidéo généré à l'aide de Meta Movie Gen.

Qu'est-ce que Meta Movie Gen ?

Avant de parler de ce qu'est la Meta Movie Gen, voyons comment elle a vu le jour. 

Les efforts de recherche de Meta liés à l'IA générative ont commencé avec leur série de modèles Make-A-Scene. Cette recherche se concentre sur une méthode d'IA générative multimodale qui aide les artistes et les visionnaires à donner vie à leur imagination. Les artistes peuvent saisir des images, du son, des vidéos ou des animations 3D pour obtenir la sortie d'image qu'ils souhaitent. Le prochain saut dans l'innovation est venu avec des modèles de diffusion comme les modèles de la Fondation d'image du lama(Emu), qui ont permis de générer des images et des vidéos de bien meilleure qualité et ont rendu possible l'édition d'images.

Fig 2. Exemple d'utilisation du croquis et du texte de Make-A-Scene pour obtenir une image générée.

Movie Gen est la dernière contribution de Meta à la recherche sur l 'IA générative. Il combine toutes les modalités mentionnées précédemment et permet un contrôle plus fin afin que les gens puissent utiliser les modèles de manière plus créative. Meta Movie Gen est une collection de modèles fondamentaux pour la génération de différents types de médias, y compris texte-vidéo, texte-audio et texte-image. Il se compose de quatre modèles, qui sont formés sur une combinaison d'ensembles de données sous licence et accessibles au public. 

Voici un aperçu rapide de ces modèles :

  • Modèle vidéo Movie Gen : Un modèle de 30 milliards de paramètres qui génère des vidéos de haute qualité à partir d'invites textuelles. 
  • Modèle audio Movie Gen : Un modèle de 13 milliards de paramètres qui peut créer des bandes sonores synchronisées avec le contenu vidéo. 
  • Modèle de vidéo personnalisée Movie Gen : Il génère des vidéos de personnes spécifiques à partir d'une invite textuelle et d'une seule image, en conservant leur ressemblance. 
  • Modèle Movie Gen Edit : Ce modèle permet de réaliser des montages vidéo détaillés et textuels pour des vidéos réelles ou fictives. 

Entraîne le modèle vidéo Meta Movie Gen

Plusieurs processus clés ont été impliqués dans la création et la formation du modèle Movie Gen Video. La première étape a consisté à collecter et à préparer des données visuelles, notamment des images et des clips vidéo, principalement des activités humaines filtrées en fonction de leur qualité, de leur mouvement et de leur pertinence. Les données ont ensuite été associées à des légendes qui expliquaient ce qui se passait dans chaque scène. Les légendes, générées à l'aide du modèle LLaMa3-Video de Meta, ont fourni de nombreux détails sur le contenu de chaque scène, améliorant ainsi les capacités de narration visuelle du modèle.

Fig 3. Vue d'ensemble du pipeline de curation des données de pré-entraînement du modèle Movie Gen Video.

Le processus de formation a commencé par l'apprentissage par le modèle de la transformation du texte en images de faible résolution. Il a ensuite progressé jusqu'à la création de clips vidéo complets grâce à une combinaison de formation texte-image et texte-vidéo, en utilisant des visuels de plus en plus qualitatifs. 

Un outil appelé TAE (Temporal Autoencoder) a compressé les vidéos pour gérer efficacement de grands volumes de données. Un réglage fin a permis d'affiner la qualité de la vidéo, et une méthode appelée moyenne de modèle (elle combine plusieurs sorties de modèle pour obtenir des résultats plus lisses et plus cohérents) a permis d'assurer une plus grande cohérence de la sortie. Enfin, la vidéo, initialement en 768p, a été convertie en une résolution nette de 1080p à l'aide d'une technique d'échantillonnage spatial, qui augmente la résolution de l'image en ajoutant des données de pixels pour des visuels plus clairs. Il en résulte des sorties vidéo détaillées et de haute qualité.

Exploration des capacités de génération de méta films

Les modèles Meta Movie Gen prennent principalement en charge quatre capacités différentes. Examinons de plus près chacune d'entre elles.

Génération de vidéo et d'audio

Meta Movie Gen peut générer des vidéos de haute qualité. Ces clips vidéo peuvent durer jusqu'à 16 secondes et tourner à 16 fps (images par seconde), créant ainsi des visuels réalistes qui capturent les mouvements, les interactions et les angles de caméra à partir d'invites textuelles. Associé au modèle audio de 13 milliards de paramètres, il peut produire un son synchronisé, y compris des sons ambiants, des effets de bruitage et de la musique, pour correspondre aux images. 

Cette configuration garantit une expérience transparente et réaliste, où les images et le son restent alignés et réalistes au fil des scènes et des invites. Par exemple, ces modèles ont été utilisés pour créer des clips vidéo de l'hippopotame porcin viral de Thaïlande, appelé Moo Deng.

Fig 4. Image d'un clip vidéo de Moo Deng réalisé à l'aide de la fonction Movie Gen de Meta.

Génération de vidéos personnalisées

Une autre capacité intéressante du modèle Meta Movie Gen est la génération de vidéos personnalisées. Les utilisateurs peuvent fournir l'image d'une personne et un texte décrivant la façon dont le clip vidéo doit être généré, ce qui donne une vidéo qui inclut la personne de référence et incorpore les riches détails visuels spécifiés dans le texte. Le modèle utilise les deux entrées (image et texte) pour conserver l'apparence unique de la personne et les mouvements naturels de son corps, tout en suivant avec précision la scène décrite dans l'invite.

Fig 5. Un exemple de la capacité de génération de vidéos personnalisées du modèle.

Montage vidéo précis 

En utilisant le modèle Movie Gen Edit, les utilisateurs peuvent fournir à la fois un clip vidéo et une invite textuelle pour éditer la vidéo de manière créative. Le modèle associe la génération de vidéos à l'édition d'images avancée pour effectuer des modifications très spécifiques, telles que l'ajout, la suppression ou le remplacement d'éléments. Il peut également effectuer des changements globaux tels que la modification de l'arrière-plan du clip vidéo ou du style général. Mais ce qui rend ce modèle vraiment unique, c'est sa précision : il peut cibler uniquement les pixels spécifiques qui nécessitent une édition et laisser le reste intact. Cela permet de préserver le contenu original autant que possible. 

Fig 6. Divers exemples des capacités de montage vidéo du modèle Movie Gen Edit.

Outils d'analyse comparative de Meta Movie Gen

En plus des modèles d'IA générative, Meta a également présenté Movie Gen Bench, une suite d'outils d'analyse comparative permettant de tester les performances des modèles d'IA générative. Elle comprend deux outils principaux : Movie Gen Video Bench et Movie Gen Audio Bench. Tous deux sont conçus pour tester différents aspects de la génération vidéo et audio.

Voici un aperçu des deux outils :

  • Banc vidéo Movie Gen: Il se compose de 1003 invites couvrant une grande variété de catégories de test telles que les activités humaines, les animaux, les paysages naturels, la physique, ainsi que des sujets et des activités inhabituels. Ce qui rend ce banc d'évaluation particulièrement précieux, c'est sa couverture des niveaux de mouvement, qui garantit que le modèle de génération vidéo est testé aussi bien pour les séquences rapides que pour les séquences plus lentes.
  • Banc audio Movie Gen : Il est conçu pour tester les capacités de génération audio à travers 527 invites. Ces invites sont associées à des vidéos générées afin d'évaluer la capacité du modèle à synchroniser les effets sonores et la musique avec le contenu visuel.
Fig 7. Le diagramme montre une répartition des invites d'évaluation, avec une liste de concepts à gauche et un nuage de mots de noms et de verbes couramment utilisés à droite.

Une application pratique de la méta-génération de films

Maintenant que nous avons parlé des modèles Meta Movie Gen et de leur fonctionnement, explorons l'une de leurs applications pratiques. 

Movie Gen AI Innovations dans la réalisation de films

L'une des utilisations les plus passionnantes de Movie Gen de Meta est la façon dont il peut transformer la réalisation de films grâce à la création vidéo et audio alimentée par l'IA. Avec Movie Gen, les créateurs peuvent générer des visuels et des sons de haute qualité à partir de simples invites textuelles, ce qui ouvre la voie à de nouvelles façons de raconter des histoires. 

En fait, Meta a fait équipe avec Blumhouse et un groupe de cinéastes, recueillant leurs commentaires sur la façon dont Movie Gen peut soutenir au mieux le processus créatif. Des cinéastes comme Aneesh Chaganty, les sœurs Spurlock et Casey Affleck ont testé la capacité de l'outil à capturer l'humeur, le ton et la direction visuelle. Ils ont découvert que les modèles aidaient à faire naître de nouvelles idées.

Ce programme pilote a montré que si Movie Gen ne remplace pas la réalisation de films traditionnels, il offre aux réalisateurs un nouveau moyen d'expérimenter des éléments visuels et sonores de façon rapide et créative. Les réalisateurs ont également apprécié la façon dont les fonctions d'édition de l'outil leur permettent de jouer plus librement avec les sons d'arrière-plan, les effets et les styles visuels. 

Fig 8. Image d'un court métrage créé à l'aide de Meta Movie Gen.

Principaux enseignements

Meta Movie Gen est un pas en avant dans l'utilisation de l'IA générative pour réaliser des vidéos et des sons de haute qualité à partir de simples descriptions textuelles. Cet outil aide les utilisateurs à créer facilement des vidéos réalistes et personnalisées. Avec des capacités telles que l'édition vidéo précise et la génération de médias personnalisés, Meta Movie Gen offre un ensemble d'outils flexibles qui ouvre de nouvelles possibilités pour la narration, la réalisation de films et au-delà. En facilitant la création de visuels détaillés et utiles, Meta Movie Gen transforme la façon dont les vidéos sont réalisées et utilisées dans différents domaines et établit une nouvelle norme pour la création de contenu axée sur l'IA.

Pour en savoir plus, visite notre dépôt GitHub et engage-toi auprès de notre communauté. Explore les applications de l'IA dans les voitures auto-conduites et l'agriculture sur nos pages de solutions. 🚀

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.