Kom meer te weten over Veo, het nieuwste generatieve videomodel van Google DeepMind dat moeiteloos 1080P video's van hoge kwaliteit kan maken op basis van tekst, afbeeldingen en video-aanwijzingen.
Tijdens de 2024 I/O presentatie van Google op 14 mei deelden ze de nieuwste updates van DeepMind, hun AI divisie. Een van de meest opwindende ontwikkelingen die werd gedeeld was hun nieuwste generatieve videomodel, Veo. Veo kan 1080P video's van hoge kwaliteit maken op basis van tekst, afbeeldingen en video-aanwijzingen. Je kunt zelfs gegenereerde video's bewerken met latere aanwijzingen. Veo tilt generatieve AI naar een hoger niveau. Laten we eens kijken naar de functies die Veo biedt.
Veo is een generatief videomodel dat gebruik maakt van een diep begrip van taal en visuals om video's te maken die nauw aansluiten bij de creatieve visie van een gebruiker. Het kan de toon en details van langere aanwijzingen nauwkeurig vastleggen, waardoor het een krachtig hulpmiddel is voor makers die hun ideeën willen omzetten in precieze video-inhoud.
De gebruiker heeft baanbrekende creatieve controle over de gegenereerde video omdat Veo filmtechnieken als "timelapse" en "luchtopnames van een landschap" kan begrijpen. Deze creatieve controle maakt het voor gebruikers mogelijk om video's te maken waarin mensen, dieren en objecten op een natuurlijke manier bewegen. Video's gegenereerd door Veo zijn boeiend en visueel aantrekkelijk omdat het moeilijk te zien is dat ze gegenereerd zijn door een AI-model.
Veo gaat verder dan alleen video's maken op basis van aanwijzingen. Als je een eerder gegenereerde video en een specifiek bewerkingsverzoek opgeeft, zoals het invoegen van kajaks in een luchtfoto van een kustlijn, kan Veo deze wijziging naadloos integreren in de oorspronkelijke video en een bijgewerkte versie produceren.
Hier zijn nog een paar functies die Veo biedt:
Laten we eens kijken naar een aantal video's die Veo heeft gemaakt en waarom het zo adembenemend is.
Het genereren van een video van een timelapse op basis van een korte tekstmelding is een uitdaging. Meestal kan de korte tekstmelding veranderingen en bewegingen binnen de scène van de timelapse niet nauwkeurig overbrengen. Het is dus verbazingwekkend dat Veo kan begrijpen wat je van een timelapse kunt verwachten zonder in detail te treden.
Ook het genereren van video's met accurate fysica is niet eenvoudig. Het AI-model moet natuurkundige wetten zoals zwaartekracht, momentum en botsingen begrijpen en simuleren om bewegingen en interacties realistisch te laten lijken. Het is indrukwekkend dat Veo in staat is om deze dynamica nauwkeurig te modelleren zonder gedetailleerde begeleiding van tekstaanwijzingen.
Tot nu toe hebben we alleen kortere video's gezien die door AI zijn gegenereerd vanwege de beperkingen van de rekenkracht en de complexiteit van het handhaven van de samenhang over langere sequenties. Tijdens de I/O-presentatie van Google voor 2024 werd het verbluffende vermogen van Veo getoond om langere en meer ingewikkelde video's te maken.
Net als veel andere AI-modellen staat Veo op de schouders van reuzen. Het is gebaseerd op eerdere ontwikkelingen zoals Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet en Lumiere, maar ook op Google's eigen Transformer architectuur en Gemini. Om Veo's vermogen om aanwijzingen nauwkeurig te interpreteren te verbeteren, werden bovendien de bijschriften van elke video in de trainingsdataset gedetailleerder.
Gebaseerd op het ruwe model workflow gedeeld door Google, is dit hoe Veo werkt:
Om de mogelijkheden van Veo te testen, werkte Google samen met filmmaker Donald Glover en zijn creatieve studio Gilga. Ze gebruikten Veo om verschillende creatieve technieken te onderzoeken, waaronder dynamische tracking shots, die precieze bewegingen en een consistente kadrering vereisen.
Traditioneel hebben filmmakers te maken met beperkingen vanwege tijd en middelen. Met Veo konden Glover en zijn team snel experimenteren met complexe shots en deze genereren, wat weer zorgde voor meer flexibiliteit en innovatie in het filmproces.
Met Veo konden Glover en zijn team snel experimenteren met complexe shots en ze genereren voordat ze echt gingen filmen. Ze konden bijvoorbeeld verschillende dynamische tracking shots testen om te zien hoe ze eruit zouden zien en waar nodig aanpassingen doen. Dit previsualisatieproces hielp hen om hun ideeën te verfijnen en ervoor te zorgen dat de opnamen zouden werken zoals bedoeld, waardoor uiteindelijk het aantal takes dat nodig was tijdens het filmen kon worden verminderd. Ze waren in staat om een overtuigende casestudy te maken om het potentieel van Veo aan te tonen om de filmindustrie te veranderen. Het biedt een snellere en efficiëntere manier om creatieve visies tot leven te brengen.
De geavanceerde mogelijkheden van Veo om video's te genereren hebben praktische toepassingen in vele bedrijfstakken. In de reclamewereld kan Veo snel aangepaste commercials van hoge kwaliteit produceren voor een gericht publiek, waardoor tijd en productiekosten worden bespaard. In het onderwijs kan Veo boeiende instructievideo's maken om complexe concepten begrijpelijker te maken.
Bedrijven kunnen Veo gebruiken voor training en bedrijfscommunicatie. Professionals in de gezondheidszorg kunnen Veo gebruiken om medische procedures te simuleren voor trainingsdoeleinden. Voor virtuele evenementen en conferenties kan Veo levensechte simulaties van locaties en podia maken, zodat bezoekers overal een boeiende en interactieve ervaring hebben. Organisatoren profiteren van een groter bereik en waardevolle inzichten voor toekomstige evenementen. Dankzij Veo zijn er talloze mogelijkheden ontstaan.
Wanneer een AI-model het potentieel heeft om verschillende industrieën te raken, is het belangrijk om veiligheid en ethische AI in gedachten te houden. Om bredere toepassing mogelijk te maken en verantwoord gebruik te garanderen, heeft Google verschillende veiligheidsmaatregelen geïmplementeerd. Video's gemaakt door Veo zijn voorzien van een watermerk met SynthID, een tool voor het watermerken en identificeren van AI-gegenereerde content. SynthID zorgt voor transparantie en helpt privacy-, auteursrecht- en vooringenomenheidsrisico's te beperken. Daarnaast passeren alle gegenereerde video's veiligheidsfilters en memorisatiecontroleprocessen. Deze waarborgen maken Veo een waardevol en ethisch hulpmiddel dat verantwoorde en innovatieve videoproductie ondersteunt.
In de komende weken zal Google beginnen met het aanbieden van enkele van Veo's baanbrekende functies aan geselecteerde makers via VideoFX, een nieuwe tool die beschikbaar is op labs.google. Dit initiatief biedt vroege toegang tot de geavanceerde mogelijkheden van Veo om video's te maken, zodat makers kunnen experimenteren met de innovatieve functies. De wachtlijst voor Veo is momenteel open en nodigt geïnteresseerde makers uit om zich aan te melden en de krachtige tools van Veo te gebruiken in hun projecten.
Naast Veo heeft DeepMind verschillende baanbrekende updates op het gebied van generatieve AI geïntroduceerd voor 2024. Een van deze updates is Imagen 3, hun meest geavanceerde tekst-naar-beeld model tot nu toe. Imagen 3 blinkt uit in het maken van fotorealistische, levensechte afbeeldingen. Het begrijpt natuurlijke taalaanwijzingen zeer goed en legt ingewikkelde details vast terwijl het visuele artefacten minimaliseert.
DeepMind heeft ook Lyria ontwikkeld, het meest geavanceerde model voor AI-muziekgeneratie. Als onderdeel van deze inspanning heeft DeepMind een reeks AI-tools voor muziek gemaakt, genaamd Music AI Sandbox. Met deze tools kunnen muzikanten en producers nieuwe creatieve mogelijkheden verkennen op het gebied van muziekcompositie en geluidstransformatie.
Net als Veo heeft DeepMind ook voor zijn andere updates verschillende veiligheidsmaatregelen geïmplementeerd. De SynthID zal in al deze updates worden gebruikt als een hulpmiddel voor het maken van watermerken en het identificeren van AI-gegenereerde content. Deze updates van DeepMind beloven verschillende industrieën te transformeren door geavanceerde, efficiënte en verantwoorde tools te bieden voor het maken van hoogwaardige visuele en audio-inhoud.
De 2024 generatieve AI-ontwikkelingen van DeepMind, waaronder Veo, Imagen 3 en Lyria, betekenen een aanzienlijke sprong voorwaarts in AI-mogelijkheden. Veo transformeert het maken van video's met zijn vermogen om 1080p video's van hoge kwaliteit te genereren op basis van eenvoudige aanwijzingen, waardoor het een veelzijdig hulpmiddel is voor filmmakers en contentmakers. Imagen 3 schittert in het produceren van fotorealistische afbeeldingen, terwijl Lyria nieuwe mogelijkheden introduceert in het genereren van muziek met geavanceerde AI-tools.
Deze technologieën beloven verschillende industrieën te transformeren door efficiënte en verantwoorde hulpmiddelen te bieden voor het maken van hoogwaardige visuele en audio-inhoud. Met veiligheidsmaatregelen zoals SynthID die ethisch gebruik garanderen, blijft DeepMind de grenzen van AI verleggen en de weg vrijmaken voor innovatieve toepassingen in de toekomst.
Duik in AI door onze GitHub repository te bezoeken en lid te worden van onze community. Verken onze oplossingenpagina's om te leren hoe AI wordt toegepast in de productie en landbouw.
Begin je reis met de toekomst van machine learning