X
Ultralytics YOLOv8.2 LoslatenUltralytics YOLOv8.2 LoslatenUltralytics YOLOv8.2 Pijl loslaten
Groene cheque
Link gekopieerd naar klembord

Video's maken met Google DeepMind's Veo

Kom meer te weten over Veo, het nieuwste generatieve videomodel van Google DeepMind dat moeiteloos 1080P video's van hoge kwaliteit kan maken op basis van tekst, afbeeldingen en video-aanwijzingen.

Tijdens de 2024 I/O presentatie van Google op 14 mei deelden ze de nieuwste updates van DeepMind, hun AI divisie. Een van de meest opwindende ontwikkelingen die werd gedeeld was hun nieuwste generatieve videomodel, Veo. Veo kan 1080P video's van hoge kwaliteit maken op basis van tekst, afbeeldingen en video-aanwijzingen. Je kunt zelfs gegenereerde video's bewerken met latere aanwijzingen. Veo tilt generatieve AI naar een hoger niveau. Laten we eens kijken naar de functies die Veo biedt. 

De mogelijkheden van Veo begrijpen

Veo is een generatief videomodel dat gebruik maakt van een diep begrip van taal en visuals om video's te maken die nauw aansluiten bij de creatieve visie van een gebruiker. Het kan de toon en details van langere aanwijzingen nauwkeurig vastleggen, waardoor het een krachtig hulpmiddel is voor makers die hun ideeën willen omzetten in precieze video-inhoud.

De gebruiker heeft baanbrekende creatieve controle over de gegenereerde video omdat Veo filmtechnieken als "timelapse" en "luchtopnames van een landschap" kan begrijpen. Deze creatieve controle maakt het voor gebruikers mogelijk om video's te maken waarin mensen, dieren en objecten op een natuurlijke manier bewegen. Video's gegenereerd door Veo zijn boeiend en visueel aantrekkelijk omdat het moeilijk te zien is dat ze gegenereerd zijn door een AI-model.

Veo gaat verder dan alleen video's maken op basis van aanwijzingen. Als je een eerder gegenereerde video en een specifiek bewerkingsverzoek opgeeft, zoals het invoegen van kajaks in een luchtfoto van een kustlijn, kan Veo deze wijziging naadloos integreren in de oorspronkelijke video en een bijgewerkte versie produceren.

Fig 1. Een voorbeeld van videobewerking met Veo.

Hier zijn nog een paar functies die Veo biedt:

  • Gemaskeerd bewerken: Met Veo kun je gedefinieerde gebieden van een video bewerken.
  • Video's maken op basis van afbeeldingen: Met behulp van een afbeelding en een tekstopdracht kan Veo video's genereren die de stijl van de afbeelding weerspiegelen en de aanwijzingen van de opdracht volgen.
  • Uitgebreide videoclips: Veo kan videoclips maken en uitbreiden tot 60 seconden of meer, vanuit een enkele prompt of een reeks prompts die samen een verhaal vertellen.

Adembenemende video's die Veo heeft gemaakt

Laten we eens kijken naar een aantal video's die Veo heeft gemaakt en waarom het zo adembenemend is. 

Het genereren van een video van een timelapse op basis van een korte tekstmelding is een uitdaging. Meestal kan de korte tekstmelding veranderingen en bewegingen binnen de scène van de timelapse niet nauwkeurig overbrengen. Het is dus verbazingwekkend dat Veo kan begrijpen wat je van een timelapse kunt verwachten zonder in detail te treden. 

Afb 2. Een frame uit de time-lapse video die Veo genereerde.

Ook het genereren van video's met accurate fysica is niet eenvoudig. Het AI-model moet natuurkundige wetten zoals zwaartekracht, momentum en botsingen begrijpen en simuleren om bewegingen en interacties realistisch te laten lijken. Het is indrukwekkend dat Veo in staat is om deze dynamica nauwkeurig te modelleren zonder gedetailleerde begeleiding van tekstaanwijzingen.

Fig 3. Een frame uit een video gegenereerd met Veo legt nauwkeurig de fysica van kwallenbewegingen vast.

Tot nu toe hebben we alleen kortere video's gezien die door AI zijn gegenereerd vanwege de beperkingen van de rekenkracht en de complexiteit van het handhaven van de samenhang over langere sequenties. Tijdens de I/O-presentatie van Google voor 2024 werd het verbluffende vermogen van Veo getoond om langere en meer ingewikkelde video's te maken.

Fig 4. Frames uit de langere Veo video die werd getoond tijdens de Google 2024 I/O presentatie.

Hoe werkt Veo?

Net als veel andere AI-modellen staat Veo op de schouders van reuzen. Het is gebaseerd op eerdere ontwikkelingen zoals Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet en Lumiere, maar ook op Google's eigen Transformer architectuur en Gemini. Om Veo's vermogen om aanwijzingen nauwkeurig te interpreteren te verbeteren, werden bovendien de bijschriften van elke video in de trainingsdataset gedetailleerder. 

Gebaseerd op het ruwe model workflow gedeeld door Google, is dit hoe Veo werkt:

  • Invoer prompts: Je geeft een tekstprompt en optioneel een afbeeldingsprompt.
  • Codering: De tekstprompt wordt verwerkt door een UL2 Encoder en de afbeeldingsprompt wordt verwerkt door een afbeeldingsencoder.
  • Ingesloten prompt: De uitvoer van de tekst- en afbeeldingscoder worden gecombineerd tot een enkele ingesloten prompt.
  • Latent Diffusiemodel: De ingesloten prompt en een lawaaierige gecomprimeerde video worden doorgegeven aan dit model dat er een gecomprimeerde video mee genereert. Veo gebruikt gecomprimeerde videorepresentaties van hoge kwaliteit, bekend als latents, om de efficiëntie te verbeteren met behoud van kwaliteit.
  • Decoderen: De laatste stap decodeert de 1080p video-uitvoer van de gecomprimeerde video.
Fig 5. Hoe Veo werkt.

Een meeslepende casestudy in filmmaken

Om de mogelijkheden van Veo te testen, werkte Google samen met filmmaker Donald Glover en zijn creatieve studio Gilga. Ze gebruikten Veo om verschillende creatieve technieken te onderzoeken, waaronder dynamische tracking shots, die precieze bewegingen en een consistente kadrering vereisen. 

Fig 6. Veo gebruiken in het filmproces.

Traditioneel hebben filmmakers te maken met beperkingen vanwege tijd en middelen. Met Veo konden Glover en zijn team snel experimenteren met complexe shots en deze genereren, wat weer zorgde voor meer flexibiliteit en innovatie in het filmproces.

Met Veo konden Glover en zijn team snel experimenteren met complexe shots en ze genereren voordat ze echt gingen filmen. Ze konden bijvoorbeeld verschillende dynamische tracking shots testen om te zien hoe ze eruit zouden zien en waar nodig aanpassingen doen. Dit previsualisatieproces hielp hen om hun ideeën te verfijnen en ervoor te zorgen dat de opnamen zouden werken zoals bedoeld, waardoor uiteindelijk het aantal takes dat nodig was tijdens het filmen kon worden verminderd. Ze waren in staat om een overtuigende casestudy te maken om het potentieel van Veo aan te tonen om de filmindustrie te veranderen. Het biedt een snellere en efficiëntere manier om creatieve visies tot leven te brengen.

Praktisch gebruik van Veo in verschillende sectoren 

De geavanceerde mogelijkheden van Veo om video's te genereren hebben praktische toepassingen in vele bedrijfstakken. In de reclamewereld kan Veo snel aangepaste commercials van hoge kwaliteit produceren voor een gericht publiek, waardoor tijd en productiekosten worden bespaard. In het onderwijs kan Veo boeiende instructievideo's maken om complexe concepten begrijpelijker te maken. 

Bedrijven kunnen Veo gebruiken voor training en bedrijfscommunicatie. Professionals in de gezondheidszorg kunnen Veo gebruiken om medische procedures te simuleren voor trainingsdoeleinden. Voor virtuele evenementen en conferenties kan Veo levensechte simulaties van locaties en podia maken, zodat bezoekers overal een boeiende en interactieve ervaring hebben. Organisatoren profiteren van een groter bereik en waardevolle inzichten voor toekomstige evenementen. Dankzij Veo zijn er talloze mogelijkheden ontstaan.

Wanneer een AI-model het potentieel heeft om verschillende industrieën te raken, is het belangrijk om veiligheid en ethische AI in gedachten te houden. Om bredere toepassing mogelijk te maken en verantwoord gebruik te garanderen, heeft Google verschillende veiligheidsmaatregelen geïmplementeerd. Video's gemaakt door Veo zijn voorzien van een watermerk met SynthID, een tool voor het watermerken en identificeren van AI-gegenereerde content. SynthID zorgt voor transparantie en helpt privacy-, auteursrecht- en vooringenomenheidsrisico's te beperken. Daarnaast passeren alle gegenereerde video's veiligheidsfilters en memorisatiecontroleprocessen. Deze waarborgen maken Veo een waardevol en ethisch hulpmiddel dat verantwoorde en innovatieve videoproductie ondersteunt.

Waar krijg je toegang tot Veo?

In de komende weken zal Google beginnen met het aanbieden van enkele van Veo's baanbrekende functies aan geselecteerde makers via VideoFX, een nieuwe tool die beschikbaar is op labs.google. Dit initiatief biedt vroege toegang tot de geavanceerde mogelijkheden van Veo om video's te maken, zodat makers kunnen experimenteren met de innovatieve functies. De wachtlijst voor Veo is momenteel open en nodigt geïnteresseerde makers uit om zich aan te melden en de krachtige tools van Veo te gebruiken in hun projecten.

Meer over de 2024 Generatieve AI-updates van DeepMind

Naast Veo heeft DeepMind verschillende baanbrekende updates op het gebied van generatieve AI geïntroduceerd voor 2024. Een van deze updates is Imagen 3, hun meest geavanceerde tekst-naar-beeld model tot nu toe. Imagen 3 blinkt uit in het maken van fotorealistische, levensechte afbeeldingen. Het begrijpt natuurlijke taalaanwijzingen zeer goed en legt ingewikkelde details vast terwijl het visuele artefacten minimaliseert.

Afbeelding 7. Een afbeelding gegenereerd met Imagen 3.

DeepMind heeft ook Lyria ontwikkeld, het meest geavanceerde model voor AI-muziekgeneratie. Als onderdeel van deze inspanning heeft DeepMind een reeks AI-tools voor muziek gemaakt, genaamd Music AI Sandbox. Met deze tools kunnen muzikanten en producers nieuwe creatieve mogelijkheden verkennen op het gebied van muziekcompositie en geluidstransformatie.

Fig 8. Een voorbeeld UI van de AI-muziektools van DeepMind.

Net als Veo heeft DeepMind ook voor zijn andere updates verschillende veiligheidsmaatregelen geïmplementeerd. De SynthID zal in al deze updates worden gebruikt als een hulpmiddel voor het maken van watermerken en het identificeren van AI-gegenereerde content. Deze updates van DeepMind beloven verschillende industrieën te transformeren door geavanceerde, efficiënte en verantwoorde tools te bieden voor het maken van hoogwaardige visuele en audio-inhoud.

Navigeren door de volgende fase van generatieve AI

De 2024 generatieve AI-ontwikkelingen van DeepMind, waaronder Veo, Imagen 3 en Lyria, betekenen een aanzienlijke sprong voorwaarts in AI-mogelijkheden. Veo transformeert het maken van video's met zijn vermogen om 1080p video's van hoge kwaliteit te genereren op basis van eenvoudige aanwijzingen, waardoor het een veelzijdig hulpmiddel is voor filmmakers en contentmakers. Imagen 3 schittert in het produceren van fotorealistische afbeeldingen, terwijl Lyria nieuwe mogelijkheden introduceert in het genereren van muziek met geavanceerde AI-tools.

Deze technologieën beloven verschillende industrieën te transformeren door efficiënte en verantwoorde hulpmiddelen te bieden voor het maken van hoogwaardige visuele en audio-inhoud. Met veiligheidsmaatregelen zoals SynthID die ethisch gebruik garanderen, blijft DeepMind de grenzen van AI verleggen en de weg vrijmaken voor innovatieve toepassingen in de toekomst.

Duik in AI door onze GitHub repository te bezoeken en lid te worden van onze community. Verken onze oplossingenpagina's om te leren hoe AI wordt toegepast in de productie en landbouw.

Facebook-logoTwitter-logoLinkedIn logoSymbool voor kopiëren-linken

Lees meer in deze categorie

Laten we samen bouwen aan de toekomst
van AI!

Begin je reis met de toekomst van machine learning