Grüner Scheck
Link in die Zwischenablage kopiert

Erstellen von Videos mit Google DeepMinds Veo

Erfahre mehr über Veo, Google DeepMinds neuestes generatives Videomodell, das mühelos hochwertige 1080P-Videos aus Text-, Bild- und Videoanweisungen erstellt.

Während der 2024 I/O Präsentation von Google am 14. Mai wurden die neuesten Updates von DeepMind, der KI-Abteilung des Unternehmens, vorgestellt. Eine der aufregendsten Neuerungen war das neueste generative Videomodell, Veo. Veo kann auf der Grundlage von Text-, Bild- und Videoanweisungen hochwertige 1080P-Videos erstellen. Mit Veo kannst du die erstellten Videos sogar mit nachträglichen Aufforderungen bearbeiten. Veo bringt generative KI auf die nächste Stufe. Schauen wir uns die Funktionen von Veo genauer an. 

Die Fähigkeiten von Veo verstehen

Veo ist ein generatives Videomodell, das ein tiefes Verständnis von Sprache und Bildern nutzt, um Videos zu erstellen, die genau der kreativen Vision eines Nutzers entsprechen. Es kann den Ton und die Details längerer Aufforderungen genau erfassen und ist damit ein leistungsstarkes Werkzeug für Kreative, die ihre Ideen in präzise Videoinhalte umsetzen wollen.

Der Nutzer hat eine bahnbrechende kreative Kontrolle über das erzeugte Video, weil Veo Filmtechniken wie "Zeitraffer" und "Luftaufnahmen einer Landschaft" versteht. Diese kreative Kontrolle ermöglicht es den Nutzern, Videos zu erstellen, in denen sich Menschen, Tiere und Objekte natürlich bewegen. Die von Veo erstellten Videos sind fesselnd und visuell ansprechend, denn es ist schwer zu erkennen, dass sie von einem KI-Modell erstellt wurden.

Veo geht über die bloße Erstellung von Videos nach Eingabeaufforderungen hinaus. Wenn du ein bereits erstelltes Video mit einer bestimmten Bearbeitungsanforderung zur Verfügung stellst, wie z. B. das Einfügen von Kajaks in eine Luftaufnahme einer Küste, kann Veo diese Änderung nahtlos in das Originalvideo integrieren und eine aktualisierte Version erstellen.

Abb. 1. Ein Beispiel für die Videobearbeitung mit Veo.

Hier sind einige weitere Funktionen, die Veo bietet:

  • Maskierte Bearbeitung: Mit Veo kannst du bestimmte Bereiche eines Videos bearbeiten.
  • Bildinspirierte Videoerstellung: Anhand eines Bildes und einer Textaufforderung kann Veo Videos erstellen, die den Stil des Bildes widerspiegeln und den Anweisungen der Aufforderung folgen.
  • Erweiterte Videoclips: Veo kann Videoclips erstellen und auf 60 Sekunden oder mehr verlängern, entweder aus einem einzelnen Prompt oder einer Folge von Prompts, die zusammen eine Geschichte erzählen.

Atemberaubende Videos, die Veo erstellt hat

Schauen wir uns einige der Videos an, die Veo erstellt hat und warum sie so atemberaubend sind. 

Die Erstellung eines Zeitraffervideos aus einer kurzen Textvorgabe ist eine Herausforderung. Normalerweise kann der kurze Text die Veränderungen und Bewegungen in der Szene des Zeitraffers nicht genau wiedergeben. Daher ist es erstaunlich, dass Veo verstehen kann, was man von einem Zeitraffer erwartet, ohne ins Detail zu gehen. 

Abb. 2. Ein Bild aus dem Zeitraffer-Video, das Veo erstellt hat.

Auch die Erstellung von Videos mit genauer Physik ist nicht einfach. Das KI-Modell muss physikalische Gesetze wie Schwerkraft, Impuls und Kollisionen verstehen und simulieren, damit die Bewegungen und Interaktionen realistisch wirken. Es ist beeindruckend, dass Veo in der Lage ist, diese Dynamik auch ohne detaillierte Textanweisungen genau zu modellieren.

Abb. 3. Ein Bild aus einem Video, das mit Veo erstellt wurde, fängt die Physik der Quallenbewegung genau ein.

Bisher haben wir nur kürzere Videos gesehen, die von der KI erzeugt wurden, weil die Rechenleistung begrenzt ist und es schwierig ist, längere Sequenzen zusammenhängend zu halten. Auf der Google's 2024 I/O Präsentation wurde Veos verblüffende Fähigkeit gezeigt, längere und kompliziertere Videos zu erstellen.

Abb. 4. Ausschnitte aus dem längeren Veo-Video, das auf der Google 2024 I/O Präsentation gezeigt wurde.

Wie funktioniert Veo?

Wie viele andere KI-Modelle steht auch Veo auf den Schultern von Giganten. Es stützt sich auf frühere Entwicklungen wie das Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere sowie auf die von Googleentwickelte Transformer-Architektur und Gemini. Um die Fähigkeit von Veo zu verbessern, Prompts genau zu interpretieren, wurden die Untertitel der Videos im Trainingsdatensatz detaillierter. 

Basierend auf dem groben Workflow-Modell, das Google geteilt hat, funktioniert Veo folgendermaßen:

  • Eingabeaufforderungen: Du gibst eine Texteingabeaufforderung und optional eine Bildeingabeaufforderung ein.
  • Kodierung: Der Textprompt wird von einem UL2-Encoder verarbeitet und der Bildprompt wird von einem Bild-Encoder verarbeitet.
  • Eingebettete Eingabeaufforderung: Die Ausgaben der Text- und Bildcodierer werden zu einem einzigen eingebetteten Prompt kombiniert.
  • Latentes Diffusionsmodell: Der eingebettete Prompt und ein verrauschtes, komprimiertes Video werden an dieses Modell weitergeleitet, das daraus ein komprimiertes Video erzeugt. Veo verwendet hochwertige, komprimierte Videodarstellungen, so genannte Latents, um die Effizienz zu verbessern und gleichzeitig die Qualität zu erhalten.
  • Dekodierung: Der letzte Schritt dekodiert die 1080p-Videoausgabe aus dem komprimierten Video.
Abb. 5. Wie Veo funktioniert.

Eine überzeugende Fallstudie des Filmemachens

Um die Fähigkeiten von Veo zu testen, hat sich Google mit dem Filmemacher Donald Glover und seinem Kreativstudio Gilga zusammengetan. Sie nutzten Veo, um verschiedene kreative Techniken auszuprobieren, darunter dynamische Kamerafahrten, die präzise Bewegungen und einen gleichmäßigen Bildausschnitt erfordern. 

Abb. 6. Die Verwendung von Veo im Filmprozess.

Traditionell sind Filmemacher/innen aufgrund von Zeit- und Ressourcenbeschränkungen eingeschränkt. Mit Veo konnten Glover und sein Team schnell mit komplexen Aufnahmen experimentieren und diese erstellen, was wiederum mehr Flexibilität und Innovation im Filmprozess ermöglichte.

Mit Veo konnten Glover und sein Team schnell mit komplexen Aufnahmen experimentieren und sie vor den eigentlichen Dreharbeiten erstellen. So konnten sie zum Beispiel verschiedene dynamische Kamerafahrten ausprobieren, um zu sehen, wie sie aussehen würden, und bei Bedarf Anpassungen vornehmen. Dieser Prozess der Vorvisualisierung half ihnen, ihre Ideen zu verfeinern und sicherzustellen, dass die Aufnahmen wie geplant funktionieren würden, was letztendlich die Anzahl der Aufnahmen während der eigentlichen Dreharbeiten reduzierte. Sie waren in der Lage, eine überzeugende Fallstudie zu erstellen, um das Potenzial von Veo für die Veränderung der Filmindustrie zu demonstrieren. Es bietet eine schnellere und effizientere Möglichkeit, kreative Visionen zum Leben zu erwecken.

Praktische Anwendungen von Veo in verschiedenen Branchen 

Die fortschrittlichen Funktionen von Veo zur Videoerstellung finden in vielen Branchen praktische Anwendung. In der Werbung kann Veo schnell maßgeschneiderte, hochwertige Werbespots für ein bestimmtes Zielpublikum produzieren und so Zeit und Produktionskosten sparen. Im Bildungsbereich kann Veo ansprechende Lehrvideos erstellen, die komplexe Konzepte leichter verständlich machen. 

Unternehmen können Veo für Schulungen und die Unternehmenskommunikation nutzen. Fachkräfte im Gesundheitswesen können Veo nutzen, um medizinische Verfahren für Schulungszwecke zu simulieren. Für virtuelle Veranstaltungen und Konferenzen kann Veo realitätsnahe Simulationen von Veranstaltungsorten und Bühnen erstellen, die den Teilnehmer/innen von überall aus ein fesselndes und interaktives Erlebnis bieten. Die Organisatoren profitieren von einer größeren Reichweite und wertvollen Erkenntnissen für zukünftige Veranstaltungen. Dank Veo haben sich unzählige Möglichkeiten eröffnet.

Wenn ein KI-Modell das Potenzial hat, verschiedene Branchen zu berühren, ist es wichtig, die Sicherheit und ethische KI im Auge zu behalten. Um eine breitere Anwendung zu ermöglichen und eine verantwortungsvolle Nutzung zu gewährleisten, hat Google mehrere Sicherheitsmaßnahmen eingeführt. Die von Veo erstellten Videos werden mit SynthID, einem Tool zur Kennzeichnung und Identifizierung von KI-generierten Inhalten, mit einem Wasserzeichen versehen. SynthId sorgt für Transparenz und hilft, Risiken in Bezug auf Datenschutz, Urheberrecht und Voreingenommenheit zu mindern. Darüber hinaus durchlaufen alle generierten Videos Sicherheitsfilter und Gedächtniskontrollen. Diese Sicherheitsvorkehrungen machen Veo zu einem wertvollen und ethischen Werkzeug, das eine verantwortungsvolle und innovative Videoproduktion unterstützt.

Wo du auf Veo zugreifen kannst

In den kommenden Wochen wird Google einige der bahnbrechenden Funktionen von Veo über VideoFX, ein neues Tool, das in den Labs verfügbar ist, ausgewählten Kreativen zur Verfügung stellen.google. Diese Initiative ermöglicht einen frühzeitigen Zugang zu den fortschrittlichen Videogenerierungsfunktionen von Veo und gibt den Kreativen die Möglichkeit, mit den innovativen Funktionen zu experimentieren. Die Warteliste für Veo ist derzeit offen und lädt interessierte Kreative ein, sich anzumelden und die leistungsstarken Werkzeuge von Veo in ihren Projekten zu nutzen.

Mehr zu DeepMinds 2024 Generative AI Updates

Neben Veo hat DeepMind für 2024 mehrere bahnbrechende Updates für generative KI vorgestellt. Eines dieser Updates ist Imagen 3, das bisher fortschrittlichste Text-Bild-Modell. Imagen 3 zeichnet sich dadurch aus, dass es fotorealistische, naturgetreue Bilder erzeugt. Es versteht natürlichsprachliche Eingabeaufforderungen sehr gut und erfasst komplizierte Details, während visuelle Artefakte minimiert werden.

Abb. 7. Ein mit Imagen 3 erstelltes Bild.

DeepMind hat auch Lyria entwickelt, sein fortschrittlichstes Modell zur KI-Musikgenerierung. Als Teil dieser Bemühungen hat DeepMind eine Reihe von Musik-KI-Tools namens Music AI Sandbox entwickelt. Mit diesen Werkzeugen können Musiker/innen und Produzent/innen neue kreative Möglichkeiten der Musikkomposition und Klangumwandlung erkunden.

Abb. 8. Ein Beispiel für die Benutzeroberfläche von DeepMinds KI-Musik-Tools.

Ähnlich wie bei Veo hat DeepMind auch bei seinen anderen Updates verschiedene Sicherheitsmaßnahmen eingeführt. Die SynthID wird bei diesen Updates als Wasserzeichen und zur Identifizierung von KI-generierten Inhalten verwendet. Diese Updates von DeepMind versprechen, verschiedene Branchen zu verändern, indem sie fortschrittliche, effiziente und verantwortungsbewusste Werkzeuge für die Erstellung hochwertiger visueller und akustischer Inhalte bieten.

Die nächste Phase der generativen KI steuern

Die generativen KI-Fortschritte von DeepMind aus dem Jahr 2024, darunter Veo, Imagen 3 und Lyria, stellen einen erheblichen Sprung in den KI-Fähigkeiten dar. Veo verändert die Videoerstellung mit seiner Fähigkeit, qualitativ hochwertige 1080p-Videos aus einfachen Eingabeaufforderungen zu generieren, und ist damit ein vielseitiges Werkzeug für Filmemacher/innen und Content-Ersteller/innen. Imagen 3 glänzt bei der Erstellung fotorealistischer Bilder, während Lyria mit fortschrittlichen KI-Tools neue Möglichkeiten bei der Musikproduktion eröffnet.

Diese Technologien versprechen, verschiedene Branchen zu verändern, indem sie effiziente und verantwortungsvolle Werkzeuge für die Erstellung hochwertiger visueller und akustischer Inhalte bereitstellen. Mit Sicherheitsmaßnahmen wie SynthID, die eine ethische Nutzung sicherstellen, erweitert DeepMind die Grenzen der KI und ebnet den Weg für innovative Anwendungen in der Zukunft.

Tauche in die KI ein, indem du unser GitHub-Repository besuchst und unserer Community beitrittst. Erkunde unsere Lösungsseiten, um zu erfahren, wie KI in der Produktion und in der Landwirtschaft eingesetzt wird.

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens