Google DeepMind Veo : Nouveau générateur de vidéos AI

Lors de la présentation 2024 I/O deGoogle le 14 mai dernier, les dernières mises à jour de DeepMind, sa division IA, ont été partagées. L'une des avancées les plus intéressantes a été le nouveau modèle vidéo génératif, Veo. Veo peut créer des vidéos 1080P de haute qualité à partir de textes, d'images et de messages vidéo. Il vous permet même d'éditer les vidéos générées à l'aide d'invites ultérieures. Avec Veo, l'IA générative passe à la vitesse supérieure. Examinons de plus près les fonctionnalités offertes par Veo.

Comprendre les capacités de Veo

Veo est un modèle de génération de vidéos qui utilise une compréhension approfondie du langage et des visuels pour créer des vidéos qui correspondent étroitement à la vision créative d'un utilisateur. Il peut capturer le ton et les détails d'invites plus longues avec précision, ce qui en fait un outil puissant pour les créateurs qui souhaitent transformer leurs idées en contenu vidéo précis.

L'utilisateur peut avoir un contrôle créatif révolutionnaire sur la vidéo générée, car Veo peut comprendre les techniques cinématographiques telles que le "timelapse" et les "prises de vue aériennes d'un paysage". Ce contrôle créatif permet aux utilisateurs de créer des vidéos où les personnes, les animaux et les objets se déplacent naturellement. Les vidéos générées par Veo sont attrayantes et visuellement séduisantes, car il est difficile de repérer qu'elles sont générées par un modèle d'IA.

Veo va au-delà de la simple création de vidéos à partir d'invites. Si vous fournissez une vidéo précédemment générée et une demande de modification spécifique, comme l'insertion de kayaks dans une vue aérienne d'une côte, Veo peut intégrer de manière transparente cette modification dans la vidéo originale, produisant ainsi une version mise à jour.

Fig 1. Un exemple de montage vidéo utilisant Veo.

Voici d'autres fonctionnalités offertes par Veo :

Édition masquée : Veo peut vous aider à modifier des zones définies d’une vidéo.
‍
Création de vidéos inspirées d'images : En utilisant une image et une invite textuelle, Veo peut générer des vidéos qui reflètent le style de l'image et suivent les instructions de l'invite.
‍
Clips vidéo étendus : Veo peut créer et étendre des clips vidéo jusqu'à 60 secondes ou plus, soit à partir d'une seule invite, soit à partir d'une séquence d'invites qui racontent ensemble une histoire.

Vidéos à couper le souffle générées par Veo

Passons en revue certaines des vidéos que Veo a générées et pourquoi elles sont si époustouflantes.

Générer une vidéo d'un timelapse à partir d'une courte invite textuelle est un défi. Généralement, la courte invite textuelle ne peut pas transmettre avec précision les changements et les mouvements au sein de la scène du timelapse. Il est donc étonnant que Veo puisse comprendre ce qu'il faut attendre d'un timelapse sans entrer dans les détails.

Fig 2. Une image extraite de la vidéo en accéléré générée par Veo.

‍

De même, générer des vidéos avec une physique précise n'est pas facile. Le modèle d'IA doit comprendre et simuler les lois de la physique telles que la gravité, l'élan et les collisions pour que les mouvements et les interactions semblent réalistes. Il est impressionnant que Veo soit capable de modéliser avec précision ces dynamiques sans instructions détaillées à partir d'invites textuelles.

Fig 3. Une image extraite d'une vidéo générée à l'aide de Veo capture avec précision la physique du mouvement des méduses.

‍

Jusqu'à présent, nous n'avons vu que des vidéos courtes générées par l'IA en raison des limitations informatiques et de la complexité du maintien de la cohérence sur des séquences plus longues. Lors de la présentation 2024 I/O de Google, Veo a montré sa capacité époustouflante à créer des vidéos plus longues et plus complexes.

Fig. 4. Images de la longue vidéo Veo présentée lors de la présentation de Google 2024 I/O.

‍

Comment fonctionne Veo ?

Comme beaucoup d'autres modèles d'IA, Veo repose sur les épaules de géants. Il s'appuie sur des avancées antérieures telles que Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, ainsi que sur l'architecture Transformer et Gemini, propriété de Google. De plus, afin d'améliorer la capacité de Veo à interpréter les invites avec précision, les sous-titres de chaque vidéo de son ensemble de données d'entraînement ont été plus détaillés.

En se basant sur le modèle approximatif de flux de travail partagé par Google, voici comment fonctionne Veo :

Invites d'entrée : Vous fournissez une invite textuelle et, éventuellement, une invite d'image.
‍
Encodage : Le prompt textuel est traité par un encodeur UL2, et le prompt d'image est traité par un encodeur d'image.
‍
Prompt intégré : Les sorties des encodeurs de texte et d'image sont combinées pour former un seul prompt intégré.
‍
Modèle de diffusion latente : L'invite intégrée et une vidéo compressée bruitée sont transmises à ce modèle qui génère une vidéo compressée à partir de celles-ci. Veo utilise des représentations vidéo compressées de haute qualité, appelées latentes, pour améliorer l'efficacité tout en maintenant la qualité.
‍
Décodage : L'étape finale décode la sortie vidéo 1080p à partir de la vidéo compressée.

‍

Une étude de cas fascinante dans le domaine de la réalisation de films

Pour tester les capacités de Veo, Google a fait équipe avec le cinéaste Donald Glover et son studio de création, Gilga. Ils ont utilisé Veo pour explorer diverses techniques créatives, notamment les plans de suivi dynamiques, qui nécessitent des mouvements précis et un cadrage cohérent.

Fig 6. Utilisation de Veo dans le processus de réalisation de films.

‍

Traditionnellement, les cinéastes sont confrontés à des limitations dues aux contraintes de temps et de ressources. Avec Veo, Glover et son équipe ont pu rapidement expérimenter et générer des plans complexes, ce qui, à son tour, a offert plus de flexibilité et d'innovation dans le processus de réalisation de films.

Avec Veo, Glover et son équipe ont pu rapidement expérimenter et générer des prises de vue complexes avant le tournage proprement dit. Par exemple, ils pouvaient tester différents plans de suivi dynamiques pour voir à quoi ils ressembleraient et effectuer les ajustements nécessaires. Ce processus de prévisualisation les a aidés à affiner leurs idées et à s'assurer que les prises de vue fonctionneraient comme prévu, ce qui a finalement réduit le nombre de prises nécessaires pendant le tournage proprement dit. Ils ont pu créer une étude de cas convaincante pour démontrer le potentiel de Veo à changer l'industrie cinématographique. Il offre un moyen plus rapide et plus efficace de donner vie à des visions créatives.

Utilisations pratiques de Veo dans divers secteurs

Les capacités avancées de génération de vidéos de Veo ont des applications pratiques dans de nombreux secteurs. Dans la publicité, il peut rapidement produire des publicités personnalisées de haute qualité pour des publics cibles, ce qui permet de gagner du temps et de réduire les coûts de production. Dans l'éducation, Veo peut créer des vidéos pédagogiques attrayantes, rendant les concepts complexes plus faciles à comprendre.

Les entreprises peuvent utiliser Veo pour la formation et les communications d'entreprise. Les professionnels de la santé peuvent utiliser Veo pour simuler des procédures médicales à des fins de formation. En ce qui concerne les événements et conférences virtuels, Veo peut créer des simulations réalistes de lieux et de scènes, offrant aux participants une expérience engageante et interactive où qu'ils soient. Les organisateurs bénéficient d'une portée élargie et d'informations précieuses pour les événements futurs. Grâce à Veo, d'innombrables opportunités se sont ouvertes.

Lorsqu'un modèle d'IA a le potentiel de toucher différents secteurs, il est important de garder à l'esprit la sécurité et l'éthique de l'IA. Pour permettre une adoption plus large et garantir une utilisation responsable, Google a mis en place plusieurs mesures de sécurité. Les vidéos créées par Veo sont filigranées à l'aide de SynthID, un outil permettant de filigraner et d'identifier les contenus générés par l'IA. SynthId garantit la transparence et contribue à atténuer les risques liés à la confidentialité, aux droits d'auteur et à la partialité. En outre, toutes les vidéos générées passent par des filtres de sécurité et des processus de vérification de la mémorisation. Ces garanties font de Veo un outil précieux et éthique qui soutient une production vidéo responsable et innovante.

Où accéder à Veo

Dans les semaines à venir, Google commencera à proposer certaines des fonctionnalités révolutionnaires de Veo à certains créateurs par le biais de VideoFX, un nouvel outil disponible sur labsgoogle Cette initiative permet un accès anticipé aux capacités avancées de génération de vidéos de Veo, donnant aux créateurs l'opportunité d'expérimenter ses fonctionnalités innovantes. La liste d'attente pour Veo est actuellement ouverte, invitant les créateurs intéressés à s'inscrire et à utiliser les puissants outils de Veo dans leurs projets.

Plus d'informations sur les mises à jour de l'IA générative 2024 de DeepMind

Outre Veo, DeepMind a introduit plusieurs mises à jour de pointe en matière d'IA générative pour 2024. L'une de ces mises à jour est Imagen 3, leur modèle de conversion texte-image le plus avancé à ce jour. Imagen 3 excelle dans la création d'images photoréalistes et réalistes. Il comprend en profondeur les invites en langage naturel et capture les détails complexes tout en minimisant les artefacts visuels.

Fig 7. Une image générée à l'aide d'Imagen 3.

‍

DeepMind a également développé Lyria, son modèle le plus avancé pour la génération de musique par IA. Dans le cadre de cet effort, DeepMind a créé une suite d'outils d'IA musicale appelée Music AI Sandbox. Ces outils permettent aux musiciens et aux producteurs d'explorer de nouvelles possibilités créatives dans la composition musicale et la transformation sonore.

Fig 8. Exemple d'interface utilisateur des outils de musique IA de DeepMind.

‍

Comme Veo, DeepMind a mis en œuvre plusieurs mesures de sécurité concernant ses autres mises à jour également. Le SynthID sera utilisé dans toutes ces mises à jour comme un outil de filigrane et d'identification du contenu généré par l'IA. Ces mises à jour de DeepMind promettent de transformer diverses industries en offrant des outils avancés, efficaces et responsables pour la création de contenu visuel et audio de haute qualité.

Naviguer dans la prochaine phase de l'IA générative

Les avancées de DeepMind en matière d'IA générative en 2024, notamment Veo, Imagen 3 et Lyria, marquent un saut considérable dans les capacités de l'IA. Veo transforme la création vidéo grâce à sa capacité à générer des vidéos 1080p de haute qualité à partir d'invites simples, ce qui en fait un outil polyvalent pour les cinéastes et les créateurs de contenu. Imagen 3 excelle dans la production d'images photoréalistes, tandis que Lyria introduit de nouvelles possibilités dans la génération de musique avec des outils d'IA avancés.

Ces technologies promettent de transformer diverses industries en fournissant des outils efficaces et responsables pour la création de contenu visuel et audio de haute qualité. Avec des mesures de sécurité comme SynthID assurant une utilisation éthique, DeepMind continue de repousser les limites de l'IA, ouvrant la voie à des applications innovantes dans le futur.

Plongez dans l'IA en visitant notre répertoire GitHub et en rejoignant notre communauté. Explorez nos pages de solutions pour découvrir comment l'IA est appliquée dans la fabrication et l'agriculture.

Générer des vidéos avec Google DeepMind's Veo

Comprendre les capacités de Veo

Vidéos à couper le souffle générées par Veo

Comment fonctionne Veo ?

Une étude de cas fascinante dans le domaine de la réalisation de films

Utilisations pratiques de Veo dans divers secteurs

Où accéder à Veo

Plus d'informations sur les mises à jour de l'IA générative 2024 de DeepMind

Naviguer dans la prochaine phase de l'IA générative

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Outils d'IA visuelle pour le diagnostic médical

Des données aux décisions : utiliser l'IA visuelle pour la stratégie d'entreprise

Construisons ensemble l'avenir
de l'IA !

Générer des vidéos avec Google DeepMind's Veo

Comprendre les capacités de Veo

Vidéos à couper le souffle générées par Veo

Comment fonctionne Veo ?

Une étude de cas fascinante dans le domaine de la réalisation de films

Utilisations pratiques de Veo dans divers secteurs

Où accéder à Veo

Plus d'informations sur les mises à jour de l'IA générative 2024 de DeepMind

Naviguer dans la prochaine phase de l'IA générative

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Outils d'IA visuelle pour le diagnostic médical

Des données aux décisions : utiliser l'IA visuelle pour la stratégie d'entreprise

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !