Controllo verde
Link copiato negli appunti

Meta Movie Gen: Reimmaginare la creazione di contenuti

Scopri come Meta Movie Gen sta ridefinendo la creazione di video e suoni. Scopri come questo modello offre un editing video preciso e supporta la creazione di contenuti multimediali personalizzati.

Se sei un aspirante regista o un creatore di contenuti che si diverte a realizzare video per il proprio pubblico, avere a disposizione strumenti di intelligenza artificiale che espandono la tua creatività è sempre utile. Recentemente Meta ha lanciato il suo ultimo modello di video generativo, noto come Meta Movie Gen. 

Si prevede che il mercato globale dell 'IA generativa nei media e nell'intrattenimento raggiungerà 11,57 miliardi di dollari entro il 2033, con aziende come Runway, OpenAI e Meta alla guida di innovazioni rivoluzionarie. Meta Movie Gen, in particolare, è ideale per applicazioni come la cinematografia, la creazione di contenuti video e lo storytelling digitale, rendendo più facile che mai dare vita a visioni creative attraverso video di alta qualità generati dall'intelligenza artificiale. In questo articolo esploreremo Meta Movie Gen e il suo funzionamento. Inoltre, daremo un'occhiata più da vicino ad alcune delle sue applicazioni. Cominciamo!

Figura 1. Un fotogramma di un videoclip generato con Meta Movie Gen.

Cos'è il Meta Movie Gen?

Prima di parlare di cosa sia Meta Movie Gen, diamo un'occhiata a come è nato. 

La ricerca di Meta sull'IA generativa è iniziata con la serie di modelli Make-A-Scene. Questa ricerca si concentra su un metodo di IA generativa multimodale che aiuta artisti e visionari a dare vita alla loro immaginazione. Gli artisti possono inserire immagini, audio, video o animazioni 3D per ottenere il risultato desiderato. Il salto successivo nell'innovazione è avvenuto con modelli di diffusione come i modelli della Llama Image Foundation(Emu), che hanno reso possibile la generazione di immagini e video di qualità molto più elevata e hanno permesso l'editing delle immagini.

Figura 2. Un esempio di utilizzo dello schizzo e del testo di Make-A-Scene per ottenere un'immagine generata.

Movie Gen è l'ultimo contributo di Meta alla ricerca sull'intelligenza artificiale generativa. Combina tutte le modalità menzionate in precedenza e consente un ulteriore controllo a grana fine in modo che le persone possano utilizzare i modelli in modi più creativi. Meta Movie Gen è una raccolta di modelli fondamentali per la generazione di diversi tipi di media, tra cui testo-video, testo-audio e testo-immagine. Si compone di quattro modelli che vengono addestrati su una combinazione di set di dati disponibili pubblicamente e su licenza. 

Ecco una rapida panoramica di questi modelli:

  • Modello Video Movie Gen: Un modello da 30 miliardi di parametri che genera video di alta qualità a partire da messaggi di testo. 
  • Modello audio Movie Gen: Un modello da 13 miliardi di parametri in grado di creare colonne sonore sincronizzate con i contenuti video. 
  • Modello di Video Gen Personalizzato: Genera video di persone specifiche sulla base di una richiesta di testo e di una singola immagine, mantenendo la loro somiglianza. 
  • Modello Movie Gen Edit: Il modello consente di modificare video dettagliati e basati su testo per video reali e di fantasia. 

Addestramento del modello video Meta Movie Gen

Per creare e addestrare il modello Movie Gen Video sono stati coinvolti diversi processi chiave. La prima fase ha comportato la raccolta e la preparazione di dati visivi, tra cui immagini e videoclip, principalmente di attività umane filtrate per qualità, movimento e rilevanza. I dati sono stati poi abbinati a didascalie di testo che spiegavano cosa stava accadendo in ogni scena. Le didascalie, generate con il modello LLaMa3-Video di Meta, hanno fornito ricchi dettagli sul contenuto di ogni scena, migliorando le capacità di narrazione visiva del modello.

Figura 3. Una panoramica della pipeline di pre-formazione dei dati del modello Movie Gen Video.

Il processo di formazione è iniziato con l'apprendimento del modello per trasformare il testo in immagini a bassa risoluzione. Poi è passato alla creazione di video clip completi attraverso una combinazione di addestramento da testo a immagine e da testo a video, utilizzando immagini di qualità sempre maggiore. 

Uno strumento chiamato Temporal Autoencoder (TAE) ha compresso i video per gestire in modo efficiente grandi volumi di dati. La messa a punto ha migliorato ulteriormente la qualità del video e un metodo chiamato model averaging (che combina più modelli per ottenere risultati più uniformi e coerenti) ha garantito una maggiore coerenza dei risultati. Infine, il video, inizialmente a 768p, è stato portato a una risoluzione di 1080p utilizzando una tecnica di upsampler spaziale, che aumenta la risoluzione dell'immagine aggiungendo dati ai pixel per ottenere immagini più chiare. Il risultato è stato un output video dettagliato e di alta qualità.

Esplorare le capacità di Meta Movie Gen

I modelli Meta Movie Gen supportano principalmente quattro diverse abilità. Diamo un'occhiata più da vicino a ciascuna di esse.

Generazione di video e audio

Meta Movie Gen può generare video di alta qualità. Questi video possono durare fino a 16 secondi e girare a 16 fps (fotogrammi al secondo), creando immagini realistiche che catturano il movimento, le interazioni e le angolazioni della telecamera a partire da messaggi di testo. Abbinato al modello audio da 13 miliardi di parametri, è in grado di produrre audio sincronizzato, compresi suoni ambientali, effetti Foley e musica, per adattarsi alle immagini. 

Questa configurazione garantisce un'esperienza realistica e senza soluzione di continuità, in cui sia le immagini che l'audio rimangono allineati e realistici nelle varie scene e richieste. Ad esempio, questi modelli sono stati utilizzati per creare videoclip dell'ippopotamo pigmeo virale della Thailandia, chiamato Moo Deng.

Figura 4. Un fotogramma di un videoclip di Moo Deng realizzato con Movie Gen di Meta.

Generazione di video personalizzati

Un'altra interessante funzionalità del modello Meta Movie Gen è la generazione di video personalizzati. Gli utenti possono fornire l'immagine di una persona e una richiesta di testo che descrive come dovrebbe essere generato il videoclip, ottenendo un video che include la persona di riferimento e incorpora i ricchi dettagli visivi specificati nella richiesta di testo. Il modello utilizza entrambi gli input (immagine e testo) per mantenere l'aspetto unico della persona e i movimenti naturali del corpo, seguendo con precisione la scena descritta nel messaggio.

Figura 5. Un esempio della capacità del modello di generare video personalizzati.

Montaggio video preciso 

Utilizzando il modello Movie Gen Edit, gli utenti possono fornire come input sia un video clip che un testo richiesto per modificare il video in modo creativo. Il modello combina la generazione di video con l'editing avanzato delle immagini per eseguire modifiche molto specifiche, come l'aggiunta, la rimozione o la sostituzione di elementi. Può anche eseguire modifiche globali, come modificare lo sfondo del video o lo stile generale. Ma ciò che rende il modello davvero unico è la sua precisione: è in grado di indirizzare solo i pixel specifici che devono essere modificati e di lasciare inalterato il resto. In questo modo si preserva il più possibile il contenuto originale. 

Figura 6. Vari esempi delle capacità di editing video del modello Movie Gen Edit.

Gli strumenti di benchmarking di Meta Movie Gen

Oltre ai modelli di AI generativa, Meta ha presentato anche Movie Gen Bench, una suite di strumenti di benchmarking per testare le prestazioni dei modelli di AI generativa. Si tratta di due strumenti principali: Movie Gen Video Bench e Movie Gen Audio Bench. Entrambi sono progettati per testare diversi aspetti della generazione di video e audio.

Ecco una panoramica di entrambi gli strumenti:

  • Movie Gen Video Bench: Si tratta di 1003 richieste che coprono un'ampia varietà di categorie di test come attività umane, animali, scenari naturali, fisica e soggetti e attività insolite. Ciò che rende questo benchmark di valutazione particolarmente prezioso è la copertura dei livelli di movimento, che garantisce che il modello di generazione video venga testato sia per le sequenze veloci che per quelle lente.
  • Movie Gen Audio Bench: È stato progettato per testare le capacità di generazione audio di 527 messaggi. Queste richieste sono abbinate a video generati per valutare la capacità del modello di sincronizzare gli effetti sonori e la musica con il contenuto visivo.
Figura 7. Il diagramma mostra una suddivisione delle richieste di valutazione, con un elenco di concetti a sinistra e una nuvola di parole di nomi e verbi comunemente usati a destra.

Un'applicazione pratica del Meta Movie Gen

Ora che abbiamo analizzato cosa sono e come funzionano i modelli Meta Movie Gen, analizziamo una delle loro applicazioni pratiche. 

Movie Gen Le innovazioni dell'intelligenza artificiale nella produzione cinematografica

Uno degli utilizzi più interessanti di Movie Gen di Meta è il modo in cui può trasformare il filmmaking attraverso la creazione di video e audio con l'AI. Con Movie Gen, i creatori possono generare immagini e suoni di alta qualità a partire da semplici richieste di testo, aprendo nuovi modi di raccontare storie. 

Meta ha infatti collaborato con Blumhouse e un gruppo di registi, raccogliendo il loro feedback su come Movie Gen possa supportare al meglio il processo creativo. Registi come Aneesh Chaganty, le Spurlock Sisters e Casey Affleck hanno testato la capacità dello strumento di catturare l'atmosfera, il tono e la direzione visiva. Hanno scoperto che i modelli hanno contribuito a stimolare nuove idee.

Questo programma pilota ha dimostrato che Movie Gen non sostituisce il cinema tradizionale, ma offre ai registi un nuovo modo di sperimentare con elementi visivi e audio in modo rapido e creativo. I registi hanno anche apprezzato il fatto che le funzioni di editing dello strumento permettano loro di giocare più liberamente con i suoni di sottofondo, gli effetti e gli stili visivi. 

Figura 8. Un fotogramma di un cortometraggio creato con Meta Movie Gen.

Punti di forza

Meta Movie Gen è un passo avanti nell'utilizzo dell'intelligenza artificiale generativa per creare video e suoni di alta qualità a partire da semplici descrizioni di testo. Lo strumento aiuta gli utenti a creare facilmente video realistici e personalizzati. Grazie a funzionalità come l'editing video preciso e la generazione di media personalizzati, Meta Movie Gen offre un set di strumenti flessibili che aprono nuove possibilità per la narrazione, la cinematografia e non solo. Rendendo più semplice la creazione di immagini dettagliate e utili, Meta Movie Gen sta trasformando il modo in cui i video vengono realizzati e utilizzati in diversi settori e sta definendo un nuovo standard per la creazione di contenuti guidati dall'intelligenza artificiale.

Per saperne di più, visita il nostro repository GitHub e partecipa alla nostra comunità. Scopri le applicazioni dell'intelligenza artificiale nelle auto a guida autonoma e nell'agricoltura sulle nostre pagine dedicate alle soluzioni. 🚀

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico