Grüner Scheck
Link in die Zwischenablage kopiert

Meta Movie Gen: Die Erstellung von Inhalten neu denken

Erfahre, wie Meta Movie Gen die Video- und Tonerstellung neu definiert. Erfahre, wie dieses Modell präzise Videobearbeitung bietet und die Erstellung personalisierter Medien unterstützt.

Egal, ob du ein aufstrebender Filmemacher oder ein Content Creator bist, der gerne Videos für sein Publikum dreht, KI-Tools, die deine Kreativität erweitern, sind immer hilfreich. Kürzlich hat Meta sein neuestes generatives Videomodell, Meta Movie Gen, vorgestellt. 

Der globale Markt für generative KI in der Medien- und Unterhaltungsbranche wird bis 2033 voraussichtlich 11,57 Mrd. US-Dollar erreichen, wobei Unternehmen wie Runway, OpenAI und Meta mit bahnbrechenden Innovationen führend sind. Vor allem Meta Movie Gen eignet sich hervorragend für Anwendungen wie Filmemachen, die Erstellung von Videoinhalten und digitales Storytelling und macht es einfacher denn je, kreative Visionen durch hochwertige, KI-generierte Videos zum Leben zu erwecken. In diesem Artikel stellen wir Meta Movie Gen vor und erklären, wie es funktioniert. Außerdem werfen wir einen genaueren Blick auf einige seiner Anwendungen. Los geht's!

Abb. 1. Ein Frame eines mit Meta Movie Gen erstellten Videoclips.

Was ist Meta Movie Gen?

Bevor wir erörtern, was Meta Movie Gen ist, wollen wir einen Blick darauf werfen, wie es entstanden ist. 

Metas Forschungsbemühungen im Bereich der generativen KI begannen mit der Modellreihe Make-A-Scene. Diese Forschung konzentriert sich auf eine multimodale generative KI-Methode, die Künstlern und Visionären hilft, ihre Fantasie zum Leben zu erwecken. Künstlerinnen und Künstler können Bilder, Audios, Videos oder 3D-Animationen eingeben, um die gewünschte Bildausgabe zu erhalten. Der nächste Innovationssprung kam mit Diffusionsmodellen wie den Llama Image Foundation-Modellen(Emu), die es ermöglichten, Bilder und Videos in viel höherer Qualität zu erzeugen und Bildbearbeitung zu betreiben.

Abb. 2. Ein Beispiel für die Verwendung der Skizze und Texteingabe von Make-A-Scene, um ein Bild zu erzeugen.

Movie Gen ist der neueste Beitrag von Meta zur generativen KI-Forschung. Es kombiniert alle zuvor erwähnten Modalitäten und ermöglicht eine noch feinere Steuerung, damit die Menschen die Modelle auf kreativere Weise nutzen können. Meta Movie Gen ist eine Sammlung grundlegender Modelle für die Erzeugung verschiedener Medientypen, darunter Text-zu-Video, Text-zu-Audio und Text-zu-Bild. Sie besteht aus vier Modellen, die mit einer Kombination aus lizenzierten und öffentlich zugänglichen Datensätzen trainiert wurden. 

Hier ist ein kurzer Überblick über diese Modelle:

  • Movie Gen Video-Modell: Ein 30-Milliarden-Parameter-Modell, das hochwertige Videos aus Textaufforderungen generiert. 
  • Movie Gen Audio Modell: Ein 13-Milliarden-Parameter-Modell, das Soundtracks erstellen kann, die mit Videoinhalten synchronisiert sind. 
  • Personalisiertes Movie Gen Video-Modell: Es generiert Videos von bestimmten Personen auf der Grundlage einer Textaufforderung und eines einzelnen Bildes, wobei die Ähnlichkeit der Personen erhalten bleibt. 
  • Movie Gen Edit Modell: Das Modell ermöglicht detaillierte, textbasierte Videobearbeitungen für reale und fiktive Videos. 

Training des Meta Movie Gen Video Modells

Für die Erstellung und das Training des Movie Gen Video-Modells waren mehrere wichtige Prozesse erforderlich. Im ersten Schritt wurden visuelle Daten gesammelt und aufbereitet, darunter Bilder und Videoclips, hauptsächlich von menschlichen Aktivitäten, die nach Qualität, Bewegung und Relevanz gefiltert wurden. Die Daten wurden dann mit Textuntertiteln versehen, die erklären, was in den einzelnen Szenen passiert. Die Beschriftungen, die mit dem LLaMa3-Videomodell von Meta erstellt wurden, lieferten viele Details über den Inhalt der einzelnen Szenen und verbesserten die visuellen Erzählfähigkeiten des Modells.

Abb. 3. Ein Überblick über die Datenkuratierungspipeline vor dem Training des Movie Gen Video-Modells.

Der Trainingsprozess begann damit, dass das Modell lernte, Text in niedrig aufgelöste Bilder umzuwandeln. Anschließend wurden durch eine Kombination aus Text-zu-Bild- und Text-zu-Video-Training vollständige Videoclips erstellt, wobei zunehmend hochwertiges Bildmaterial verwendet wurde. 

Ein Tool namens Temporal Autoencoder (TAE) komprimierte die Videos, um große Datenmengen effizient zu verwalten. Durch eine Feinabstimmung wurde die Videoqualität weiter verbessert, und eine Methode namens Modell-Mittelung (sie kombiniert mehrere Modellausgaben für glattere, konsistentere Ergebnisse) sorgte für eine größere Konsistenz der Ausgabe. Schließlich wurde das Video mit 768p auf eine scharfe 1080p-Auflösung hochskaliert, indem ein räumliches Upsampler-Verfahren eingesetzt wurde, das die Bildauflösung durch Hinzufügen von Pixeldaten für eine klarere Darstellung erhöht. Das Ergebnis war eine qualitativ hochwertige, detaillierte Videoausgabe.

Erkundung der Meta Movie Gen-Fähigkeiten

Die Meta Movie Gen Modelle unterstützen hauptsächlich vier verschiedene Fähigkeiten. Schauen wir uns jede von ihnen genauer an.

Video- und Audioerstellung

Meta Movie Gen kann hochwertige Videos erstellen. Diese Videoclips können bis zu 16 Sekunden lang sein und mit 16 fps (Bildern pro Sekunde) laufen. So entstehen realistische Bilder, die Bewegungen, Interaktionen und Kamerawinkel von Texteingaben einfangen. Zusammen mit dem 13-Milliarden-Parameter-Audiomodell kann es synchronisierte Audiosignale, einschließlich Umgebungsgeräusche, Foley-Effekte und Musik, passend zum Bildmaterial erzeugen. 

Dieses Setup sorgt für ein nahtloses, lebensechtes Erlebnis, bei dem Bild und Ton in verschiedenen Szenen und Aufforderungen aufeinander abgestimmt und realistisch bleiben. Diese Modelle wurden zum Beispiel verwendet, um Videoclips des viralen Flusspferds Moo Deng in Thailand zu erstellen.

Abb. 4. Ein Ausschnitt aus einem Videoclip von Moo Deng, der mit Meta's Movie Gen.

Personalisierte Videoerstellung

Eine weitere interessante Funktion des Meta Movie Gen-Modells ist die personalisierte Videoerstellung. Der Nutzer kann das Bild einer Person und einen Text eingeben, der beschreibt, wie der Videoclip erstellt werden soll. Das Ergebnis ist ein Video, das die Referenzperson enthält und die in der Textaufforderung angegebenen visuellen Details berücksichtigt. Das Modell verwendet beide Eingaben (Bild und Text), um das einzigartige Aussehen und die natürlichen Körperbewegungen der Person beizubehalten und gleichzeitig die in der Eingabeaufforderung beschriebene Szene genau nachzustellen.

Abb. 5. Ein Beispiel für die Fähigkeit des Modells, personalisierte Videos zu erstellen.

Präzise Videobearbeitung 

Mit dem Movie-Gen-Edit-Modell können die Nutzer/innen sowohl einen Videoclip als auch eine Textaufforderung als Eingabe bereitstellen, um das Video auf kreative Weise zu bearbeiten. Das Modell kombiniert die Videogenerierung mit einer fortschrittlichen Bildbearbeitung, um sehr spezifische Bearbeitungen vorzunehmen, z. B. das Hinzufügen, Entfernen oder Ersetzen von Elementen. Es kann auch globale Änderungen vornehmen, z. B. den Hintergrund des Videoclips oder den Gesamtstil ändern. Was das Modell jedoch wirklich einzigartig macht, ist seine Präzision: Es kann nur die spezifischen Pixel anvisieren, die bearbeitet werden müssen, und den Rest unangetastet lassen. So bleibt der ursprüngliche Inhalt so weit wie möglich erhalten. 

Abb. 6. Verschiedene Beispiele für die Videobearbeitungsfunktionen des Movie Gen Edit-Modells.

Die Benchmarking-Tools von Meta Movie Gen

Zusammen mit den generativen KI-Modellen hat Meta auch Movie Gen Bench vorgestellt, eine Reihe von Benchmarking-Tools zum Testen der Leistung von generativen KI-Modellen. Sie besteht aus zwei Hauptwerkzeugen: Movie Gen Video Bench und Movie Gen Audio Bench. Beide sind darauf ausgelegt, verschiedene Aspekte der Video- und Audiogenerierung zu testen.

Hier ist ein Blick auf beide Tools:

  • Movie Gen Video Bench: Er besteht aus 1003 Aufforderungen, die eine Vielzahl von Testkategorien abdecken, wie z. B. menschliche Aktivitäten, Tiere, natürliche Landschaften, Physik sowie ungewöhnliche Themen und Aktivitäten. Was diesen Benchmark besonders wertvoll macht, ist die Abdeckung von Bewegungsstufen, die sicherstellt, dass das Videogenerierungsmodell sowohl für schnelle als auch für langsamere Sequenzen getestet wird.
  • Movie Gen Audio Bench: Er wurde entwickelt, um die Fähigkeiten der Audiogenerierung anhand von 527 Prompts zu testen. Diese Prompts werden mit generierten Videos gepaart, um zu beurteilen, wie gut das Modell Soundeffekte und Musik mit visuellen Inhalten synchronisieren kann.
Abb. 7. Das Diagramm zeigt eine Aufschlüsselung der Bewertungsaufforderungen, mit einer Liste von Begriffen auf der linken Seite und einer Wortwolke mit häufig verwendeten Substantiven und Verben auf der rechten Seite.

Eine praktische Anwendung von Meta Movie Gen

Nachdem wir nun erfahren haben, was die Meta Movie Gen-Modelle sind und wie sie funktionieren, wollen wir uns eine ihrer praktischen Anwendungen ansehen. 

Movie Gen KI Innovationen beim Filmemachen

Eine der spannendsten Anwendungen von Metas Movie Gen ist die Veränderung des Filmemachens durch KI-gestützte Video- und Audioerstellung. Mit Movie Gen können Kreative aus einfachen Textanweisungen hochwertige Bilder und Töne erzeugen und so neue Wege für das Erzählen von Geschichten eröffnen. 

Meta hat sich mit Blumhouse und einer Gruppe von Filmemachern zusammengetan und ihr Feedback dazu eingeholt, wie Movie Gen den kreativen Prozess am besten unterstützen kann. Filmemacher wie Aneesh Chaganty, die Spurlock Sisters und Casey Affleck testeten die Fähigkeit des Tools, Stimmung, Ton und visuelle Ausrichtung zu erfassen. Sie stellten fest, dass die Modelle dabei helfen, neue Ideen zu entwickeln.

Das Pilotprogramm hat gezeigt, dass Movie Gen zwar nicht das traditionelle Filmemachen ersetzt, aber Regisseuren eine neue Möglichkeit bietet, schnell und kreativ mit Bild- und Tonelementen zu experimentieren. Die Filmemacher/innen schätzten auch, dass sie mit den Bearbeitungsfunktionen des Tools freier mit Hintergrundgeräuschen, Effekten und visuellen Stilen spielen können. 

Abb. 8. Ein Bild aus einem Kurzfilm, der mit Meta Movie Gen erstellt wurde.

Die wichtigsten Erkenntnisse

Meta Movie Gen ist ein Schritt nach vorn bei der Nutzung generativer KI, um aus einfachen Textbeschreibungen hochwertige Videos und Sounds zu erstellen. Das Tool hilft Nutzern, realistische und individuelle Videos zu erstellen. Mit Funktionen wie präziser Videobearbeitung und personalisierter Mediengenerierung bietet Meta Movie Gen ein flexibles Toolset, das neue Möglichkeiten für Storytelling, Filmemachen und mehr eröffnet. Meta Movie Gen erleichtert die Erstellung detaillierter und nützlicher Bilder und verändert damit die Art und Weise, wie Videos in verschiedenen Bereichen erstellt und genutzt werden.

Um mehr zu erfahren, besuche unser GitHub-Repository und beteilige dich an unserer Community. Erforsche KI-Anwendungen in selbstfahrenden Autos und in der Landwirtschaft auf unseren Lösungsseiten. 🚀

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Lies mehr in dieser Kategorie

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens