X
Ultralytics YOLOv8.2 LibérationUltralytics YOLOv8.2 LibérationUltralytics YOLOv8.2 Flèche de déverrouillage
Contrôle vert
Lien copié dans le presse-papiers

Générer des vidéos avec Google DeepMind's Veo

En savoir plus sur Veo, le dernier modèle vidéo génératif de Google DeepMind qui peut créer sans effort des vidéos 1080P de haute qualité à partir de textes, d'images et d'invites vidéo.

Lors de la présentation 2024 I/O de Google le 14 mai, ils ont partagé les dernières mises à jour de DeepMind, leur division d'IA. L'une des avancées les plus passionnantes partagées est leur tout nouveau modèle vidéo génératif, Veo. Veo peut créer des vidéos 1080P de haute qualité à partir de textes, d'images et d'invites vidéo. Il te permet même d'éditer les vidéos générées à l'aide d'invites ultérieures. Veo fait passer l'IA générative au niveau supérieur. Examinons de plus près les fonctionnalités offertes par Veo. 

Comprendre les capacités de Veo

Veo est un modèle vidéo génératif qui utilise une compréhension profonde du langage et des visuels pour créer des vidéos qui correspondent étroitement à la vision créative d'un utilisateur. Il peut capturer avec précision le ton et les détails de messages-guides plus longs, ce qui en fait un outil puissant pour les créateurs qui veulent transformer leurs idées en contenu vidéo précis.

L'utilisateur peut exercer un contrôle créatif révolutionnaire sur la vidéo générée, car Veo peut comprendre des techniques cinématographiques telles que le "timelapse" et les "prises de vue aériennes d'un paysage." Ce contrôle créatif permet aux utilisateurs de créer des vidéos où les personnes, les animaux et les objets se déplacent naturellement. Les vidéos générées par Veo sont engageantes et visuellement attrayantes car il est difficile de repérer qu'elles sont générées par un modèle d'IA.

Veo ne se contente pas de créer des vidéos à partir d'invites. Si tu fournis une vidéo déjà générée et une demande de modification spécifique, comme l'insertion de kayaks dans une vue aérienne d'un littoral, Veo peut intégrer de façon transparente cette modification dans la vidéo originale, produisant ainsi une version mise à jour.

Fig 1. Un exemple de montage vidéo à l'aide de Veo.

Voici d'autres caractéristiques offertes par Veo :

  • Montage masqué : Veo peut t'aider à éditer des zones définies d'une vidéo.
  • Création de vidéos inspirées d'images : À partir d'une image et d'un texte, Veo peut générer des vidéos qui reflètent le style de l'image et suivent les instructions du texte.
  • Clips vidéo étendus : Veo peut créer et prolonger des clips vidéo jusqu'à 60 secondes ou plus, soit à partir d'une seule invite, soit à partir d'une séquence d'invites qui, ensemble, racontent une histoire.

Des vidéos à couper le souffle que Veo a générées

Passons en revue quelques-unes des vidéos générées par Veo et expliquons pourquoi elles sont si époustouflantes. 

Générer une vidéo d'un timelapse à partir d'un texte court est un défi. Généralement, le texte court ne peut pas transmettre avec précision les changements et les mouvements au sein de la scène du timelapse. Il est donc étonnant que Veo puisse comprendre ce que l'on attend d'un timelapse sans entrer dans les détails. 

Fig 2. Une image de la vidéo time-lapse générée par Veo.

De même, il n'est pas facile de générer des vidéos avec une physique précise. Le modèle d'IA doit comprendre et simuler les lois de la physique telles que la gravité, l'élan et les collisions pour que les mouvements et les interactions paraissent réalistes. Il est impressionnant de constater que Veo est capable de modéliser avec précision ces dynamiques sans être guidé en détail par des messages-guides.

Fig 3. Une image d'une vidéo générée à l'aide de Veo capture avec précision la physique du mouvement des méduses.

Jusqu'à présent, nous n'avons vu que des vidéos plus courtes générées par l'IA en raison des limites de calcul et de la complexité du maintien de la cohérence sur des séquences plus longues. Lors de la présentation 2024 I/O de Google, la capacité époustouflante de Veo à créer des vidéos plus longues et plus complexes a été montrée.

Fig 4. Images de la vidéo Veo plus longue diffusée lors de la présentation de Google 2024 I/O.

Comment fonctionne Veo ?

Comme beaucoup d'autres modèles d'IA, Veo repose sur les épaules de géants. Il s'inspire de progrès antérieurs tels que Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, ainsi que de l'architecture Transformer et de Gemini, propriété de Google. De plus, pour améliorer la capacité de Veo à interpréter les messages-guides avec précision, les légendes de chaque vidéo de son ensemble de données de formation ont été plus détaillées. 

En se basant sur le modèle approximatif de flux de travail partagé par Google, voici comment fonctionne Veo :

  • Invites de saisie : Tu fournis une invite de texte et, éventuellement, une invite d'image.
  • Encodage : L'invite texte est traitée par un encodeur UL2, et l'invite image est traitée par un encodeur image.
  • Invite intégrée : Les sorties des codeurs de texte et d'image sont combinées pour former une seule invite intégrée.
  • Modèle de diffusion latente : L'invite intégrée et une vidéo compressée bruyante sont transmises à ce modèle qui génère une vidéo compressée en les utilisant. Veo utilise des représentations vidéo compressées de haute qualité, appelées latents, pour améliorer l'efficacité tout en maintenant la qualité.
  • Décodage : La dernière étape décode la sortie vidéo 1080p à partir de la vidéo compressée.
Fig 5. Comment fonctionne Veo.

Une étude de cas convaincante sur la réalisation d'un film

Pour tester les capacités de Veo, Google a fait équipe avec le cinéaste Donald Glover et son studio de création, Gilga. Ils ont utilisé Veo pour explorer diverses techniques créatives, notamment les plans de suivi dynamiques, qui nécessitent des mouvements précis et un cadrage cohérent. 

Fig 6. Utilisation de Veo dans le processus de réalisation d'un film.

Traditionnellement, les cinéastes sont limités par des contraintes de temps et de ressources. Avec Veo, Glover et son équipe ont pu rapidement expérimenter et générer des plans complexes, ce qui, à son tour, a apporté plus de flexibilité et d'innovation dans le processus de réalisation.

Avec Veo, Glover et son équipe ont pu rapidement expérimenter et générer des plans complexes avant le tournage. Par exemple, ils ont pu tester divers plans de suivi dynamique pour voir ce qu'ils donneraient et faire les ajustements nécessaires. Ce processus de prévisualisation les a aidés à affiner leurs idées et à s'assurer que les plans fonctionneraient comme prévu, ce qui a finalement permis de réduire le nombre de prises nécessaires pendant le tournage. Ils ont pu créer une étude de cas convaincante pour démontrer le potentiel de Veo à changer l'industrie cinématographique. Il offre un moyen plus rapide et plus efficace de donner vie à des visions créatives.

Utilisations pratiques de Veo dans diverses industries 

Les capacités avancées de génération de vidéos de Veo ont des applications pratiques dans de nombreux secteurs. Dans le domaine de la publicité, il permet de produire rapidement des spots publicitaires personnalisés et de haute qualité pour des publics ciblés, ce qui permet de gagner du temps et de réduire les coûts de production. Dans le domaine de l'éducation, Veo peut créer des vidéos pédagogiques attrayantes qui facilitent la compréhension de concepts complexes. 

Les entreprises peuvent utiliser Veo pour la formation et la communication d'entreprise. Les professionnels de la santé peuvent utiliser Veo pour simuler des procédures médicales à des fins de formation. En ce qui concerne les événements et les conférences virtuels, Veo peut créer des simulations réalistes de lieux et de scènes, offrant aux participants une expérience intéressante et interactive où qu'ils se trouvent. Les organisateurs bénéficient d'une portée élargie et d'informations précieuses pour les événements à venir. Grâce à Veo, d'innombrables possibilités se sont ouvertes.

Lorsqu'un modèle d'IA a le potentiel de toucher différents secteurs d'activité, il est important de garder à l'esprit la sécurité et l'éthique de l'IA. Pour permettre une adoption plus large et garantir une utilisation responsable, Google a mis en place plusieurs mesures de sécurité. Les vidéos créées par Veo sont filigranées à l'aide de SynthID, un outil permettant de filigraner et d'identifier les contenus générés par l'IA. Le SynthId garantit la transparence et permet d'atténuer les risques liés à la vie privée, aux droits d'auteur et à la partialité. En outre, toutes les vidéos générées passent par des filtres de sécurité et des processus de vérification de la mémorisation. Ces garanties font de Veo un outil précieux et éthique qui soutient une production vidéo responsable et innovante.

Où accéder à Veo

Dans les semaines à venir, Google commencera à proposer certaines des fonctionnalités révolutionnaires de Veo à des créateurs sélectionnés par le biais de VideoFX, un nouvel outil disponible sur labs.google. Cette initiative permet un accès anticipé aux capacités avancées de génération de vidéos de Veo, donnant aux créateurs la possibilité d'expérimenter ses fonctions innovantes. La liste d'attente pour Veo est actuellement ouverte, invitant les créateurs intéressés à s'inscrire et à utiliser les puissants outils de Veo dans leurs projets.

En savoir plus sur les mises à jour de l'IA générative 2024 de DeepMind.

En dehors de Veo, DeepMind a présenté plusieurs mises à jour de pointe en matière d'IA générative pour 2024. L'une de ces mises à jour est Imagen 3, leur modèle texte-image le plus avancé à ce jour. Imagen 3 excelle dans la création d'images photoréalistes et réalistes. Il comprend profondément les invites en langage naturel et capture des détails complexes tout en minimisant les artefacts visuels.

Fig 7. Une image générée à l'aide d'Imagen 3.

DeepMind a également développé Lyria, son modèle le plus avancé pour la génération de musique par l'IA. Dans le cadre de cet effort, DeepMind a créé une suite d'outils d'IA musicale appelée Music AI Sandbox. Ces outils permettent aux musiciens et aux producteurs d'explorer de nouvelles possibilités créatives en matière de composition musicale et de transformation du son.

Fig 8. Un exemple d'interface utilisateur des outils musicaux d'IA de DeepMind.

À l'instar de Veo, DeepMind a mis en place plusieurs mesures de sécurité concernant ses autres mises à jour également. Le SynthID sera utilisé dans l'ensemble de ces mises à jour comme outil de filigrane et d'identification des contenus générés par l'IA. Ces mises à jour de DeepMind promettent de transformer diverses industries en offrant des outils avancés, efficaces et responsables pour créer des contenus visuels et audio de haute qualité.

Naviguer dans la prochaine phase de l'IA générative

Les avancées de DeepMind en matière d'IA générative en 2024, notamment Veo, Imagen 3 et Lyria, marquent un saut considérable dans les capacités de l'IA. Veo transforme la création vidéo grâce à sa capacité à générer des vidéos 1080p de haute qualité à partir de simples invites, ce qui en fait un outil polyvalent pour les cinéastes et les créateurs de contenu. Imagen 3 brille dans la production d'images photoréalistes, tandis que Lyria introduit de nouvelles possibilités dans la génération de musique grâce à des outils d'IA avancés.

Ces technologies promettent de transformer diverses industries en fournissant des outils efficaces et responsables pour créer des contenus visuels et audio de haute qualité. Grâce à des mesures de sécurité comme SynthID qui garantissent une utilisation éthique, DeepMind continue de repousser les limites de l'IA, ouvrant ainsi la voie à des applications innovantes à l'avenir.

Plonge dans l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. Explore nos pages de solutions pour découvrir comment l'IA est appliquée à la fabrication et à l'agriculture.

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.