Controllo verde
Link copiato negli appunti

Generare video con Google DeepMind's Veo

Scopri di più su Veo, l'ultimo modello video generativo di Google DeepMind in grado di creare facilmente video di alta qualità a 1080P partendo da testi, immagini e video.

Durante la presentazione I/O 2024 del 14 maggio, Google ha condiviso gli ultimi aggiornamenti di DeepMind, la sua divisione AI. Uno dei progressi più interessanti è stato il nuovo modello di video generativo, Veo. Veo è in grado di creare video di alta qualità a 1080P basandosi su testi, immagini e video. Permette anche di modificare i video generati con suggerimenti successivi. Veo porta l'intelligenza artificiale generativa a un livello superiore. Diamo un'occhiata più da vicino alle caratteristiche offerte da Veo. 

Capire le capacità di Veo

Veo è un modello video generativo che utilizza una profonda comprensione del linguaggio e delle immagini per creare video che corrispondono perfettamente alla visione creativa dell'utente. È in grado di catturare con precisione il tono e i dettagli delle richieste più lunghe, rendendolo uno strumento potente per i creatori che vogliono trasformare le loro idee in contenuti video precisi.

L'utente può avere un controllo creativo rivoluzionario sul video generato perché Veo è in grado di comprendere tecniche cinematografiche come il "timelapse" e le "riprese aeree di un paesaggio". Questo controllo creativo permette agli utenti di creare video in cui persone, animali e oggetti si muovono in modo naturale. I video generati da Veo sono coinvolgenti e visivamente attraenti perché è difficile capire che sono stati generati da un modello AI.

Veo va oltre la mera creazione di video a partire da messaggi. Se fornisci un video generato in precedenza e una richiesta di modifica specifica, come ad esempio l'inserimento di kayak in una veduta aerea di una costa, Veo può integrare perfettamente questa modifica nel video originale, producendo una versione aggiornata.

Figura 1. Un esempio di editing video con Veo.

Ecco altre caratteristiche di Veo:

  • Editing mascherato: Veo può aiutarti a modificare aree definite di un video.
  • Creazione di video ispirati alle immagini: Utilizzando un'immagine e una richiesta di testo, Veo può generare video che rispecchiano lo stile dell'immagine e seguono le indicazioni della richiesta.
  • Video clip estesi: Veo può creare ed estendere clip video di 60 secondi o più, partendo da un singolo prompt o da una sequenza di prompt che insieme raccontano una storia.

Video mozzafiato generati da Veo

Scopriamo alcuni dei video che Veo ha generato e perché è così mozzafiato. 

Generare un video di un timelapse a partire da un breve testo è una sfida. In genere, il testo breve non è in grado di trasmettere con precisione i cambiamenti e i movimenti all'interno della scena del timelapse. È quindi sorprendente che Veo riesca a capire cosa aspettarsi da un timelapse senza entrare nei dettagli. 

Figura 2. Un fotogramma del video time-lapse generato da Veo.

Allo stesso modo, generare video con una fisica accurata non è facile. Il modello di intelligenza artificiale deve comprendere e simulare le leggi della fisica come la gravità, la quantità di moto e le collisioni per far apparire realistici i movimenti e le interazioni. È impressionante che Veo sia in grado di modellare accuratamente queste dinamiche senza una guida dettagliata da parte del testo.

Figura 3. Un fotogramma di un video generato con Veo cattura accuratamente la fisica del movimento delle meduse.

Finora abbiamo visto solo video più brevi generati dall'IA a causa dei limiti computazionali e della complessità di mantenere la coerenza su sequenze più lunghe. Alla presentazione dell'I/O 2024 di Googleè stata mostrata la sorprendente capacità di Veo di creare video più lunghi e complessi.

Figura 4. Fotogrammi del video Veo più lungo mostrato alla presentazione di Google 2024 I/O.

Come funziona Veo?

Come molti altri modelli di intelligenza artificiale, Veo si basa sulle spalle di giganti. Si basa su progressi precedenti come Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, oltre all'architettura proprietaria Transformer di Googlee a Gemini. Inoltre, per migliorare la capacità di Veo di interpretare accuratamente i messaggi, le didascalie di ogni video del dataset di addestramento sono state rese più dettagliate. 

Sulla base del modello di flusso di lavoro approssimativo condiviso da Google, ecco come funziona Veo:

  • Prompt di input: Fornisci una richiesta di testo e, opzionalmente, una richiesta di immagine.
  • Codifica: Il messaggio di testo viene elaborato da un codificatore UL2, mentre il messaggio di immagine viene elaborato da un codificatore di immagini.
  • Prompt incorporato: I risultati dei codificatori di testo e di immagini vengono combinati per formare un unico prompt incorporato.
  • Modello di diffusione latente: Il messaggio incorporato e un video compresso rumoroso vengono passati a questo modello che genera un video compresso utilizzando questi elementi. Veo utilizza rappresentazioni video compresse di alta qualità, note come latenti, per migliorare l'efficienza mantenendo la qualità.
  • Decodifica: La fase finale decodifica il video 1080p in uscita dal video compresso.
Figura 5. Come funziona Veo.

Un avvincente caso di studio sul cinema

Per testare le capacità di Veo, Google ha collaborato con il regista Donald Glover e il suo studio creativo Gilga. Hanno utilizzato Veo per esplorare varie tecniche creative, tra cui le riprese dinamiche in tracking, che richiedono movimenti precisi e inquadrature coerenti. 

Figura 6. Utilizzo di Veo nel processo di produzione cinematografica.

Tradizionalmente, i registi devono affrontare limitazioni dovute a vincoli di tempo e di risorse. Con Veo, Glover e il suo team hanno potuto sperimentare e generare rapidamente inquadrature complesse che, a loro volta, hanno garantito maggiore flessibilità e innovazione nel processo di produzione.

Con Veo, Glover e il suo team hanno potuto sperimentare e generare rapidamente riprese complesse prima delle riprese vere e proprie. Ad esempio, hanno potuto testare varie inquadrature con tracking dinamico per vedere come sarebbero apparse e apportare le modifiche necessarie. Questo processo di pre-visualizzazione li ha aiutati a perfezionare le loro idee e ad assicurarsi che le inquadrature funzionassero come previsto, riducendo in ultima analisi il numero di riprese necessarie durante le riprese vere e proprie. Sono stati in grado di creare un caso di studio convincente per dimostrare il potenziale di Veo nel cambiare l'industria cinematografica. Offre un modo più rapido ed efficiente per dare vita alle visioni creative.

Usi pratici del Veo in vari settori industriali 

Le avanzate capacità di generazione video di Veo hanno applicazioni pratiche in molti settori. Nel settore pubblicitario, può produrre rapidamente spot pubblicitari personalizzati e di alta qualità per un pubblico mirato, risparmiando tempo e costi di produzione. Nel settore dell'istruzione, Veo è in grado di creare video didattici coinvolgenti, rendendo più comprensibili concetti complessi. 

Le aziende possono utilizzare Veo per la formazione e le comunicazioni aziendali. I professionisti del settore sanitario possono utilizzare Veo per simulare procedure mediche a scopo formativo. Per quanto riguarda gli eventi e le conferenze virtuali, Veo può creare simulazioni realistiche di luoghi e palchi, offrendo ai partecipanti un'esperienza coinvolgente e interattiva da qualsiasi luogo. Gli organizzatori beneficiano di una maggiore portata e di preziose indicazioni per gli eventi futuri. Grazie a Veo si sono aperte innumerevoli opportunità.

Quando un modello di IA ha il potenziale di toccare diversi settori, è importante tenere conto della sicurezza e dell'etica dell'IA. Per consentire un'adozione più ampia e garantire un uso responsabile, Google ha implementato diverse misure di sicurezza. I video creati da Veo sono filigranati con SynthID, uno strumento per la filigrana e l'identificazione dei contenuti generati dall'IA. Il SynthId garantisce la trasparenza e aiuta a ridurre i rischi legati alla privacy, al copyright e ai pregiudizi. Inoltre, tutti i video generati passano attraverso filtri di sicurezza e processi di verifica della memorizzazione. Queste garanzie rendono Veo uno strumento prezioso ed etico che supporta una produzione video responsabile e innovativa.

Dove accedere a Veo

Nelle prossime settimane, Google inizierà a offrire alcune delle innovative funzionalità di Veo a creatori selezionati attraverso VideoFX, un nuovo strumento disponibile presso i laboratori.google. Questa iniziativa consente un accesso anticipato alle funzionalità avanzate di generazione video di Veo, dando ai creatori l'opportunità di sperimentare le sue caratteristiche innovative. La lista d'attesa per Veo è attualmente aperta e invita i creatori interessati a iscriversi e a utilizzare i potenti strumenti di Veo nei loro progetti.

Ulteriori informazioni sugli aggiornamenti dell'IA generativa 2024 di DeepMind

Oltre a Veo, DeepMind ha introdotto diversi aggiornamenti all'avanguardia nel campo dell'intelligenza artificiale generativa per il 2024. Uno di questi aggiornamenti è Imagen 3, il modello più avanzato di text-to-image. Imagen 3 eccelle nella creazione di immagini fotorealistiche e realistiche. Comprende a fondo le richieste del linguaggio naturale e cattura dettagli intricati riducendo al minimo gli artefatti visivi.

Figura 7. Un'immagine generata con Imagen 3.

DeepMind ha anche sviluppato Lyria, il suo modello più avanzato per la generazione di musica AI. Nell'ambito di questo impegno, DeepMind ha creato una suite di strumenti di AI musicale chiamata Music AI Sandbox. Questi strumenti consentono a musicisti e produttori di esplorare nuove possibilità creative nella composizione musicale e nella trasformazione del suono.

Figura 8. Un esempio di interfaccia utente degli strumenti musicali di DeepMind.

Come per Veo, DeepMind ha implementato diverse misure di sicurezza anche per gli altri aggiornamenti. Il SynthID sarà utilizzato in tutti questi aggiornamenti come strumento di watermarking e di identificazione dei contenuti generati dall'intelligenza artificiale. Questi aggiornamenti di DeepMind promettono di trasformare diversi settori offrendo strumenti avanzati, efficienti e responsabili per la creazione di contenuti visivi e audio di alta qualità.

Come navigare nella prossima fase dell'IA generativa

I progressi dell'AI generativa di DeepMind per il 2024, tra cui Veo, Imagen 3 e Lyria, segnano un notevole salto di qualità nelle capacità dell'AI. Veo trasforma la creazione di video grazie alla sua capacità di generare video di alta qualità a 1080p a partire da semplici richieste, rendendolo uno strumento versatile per registi e creatori di contenuti. Imagen 3 brilla nella produzione di immagini fotorealistiche, mentre Lyria introduce nuove possibilità nella generazione di musica grazie a strumenti avanzati di intelligenza artificiale.

Queste tecnologie promettono di trasformare diversi settori fornendo strumenti efficienti e responsabili per la creazione di contenuti visivi e audio di alta qualità. Grazie a misure di sicurezza come SynthID, che garantiscono un uso etico, DeepMind continua a espandere i confini dell'IA, aprendo la strada ad applicazioni innovative in futuro.

Immergiti nell'IA visitando il nostro repository GitHub e unisciti alla nostra comunità. Esplora le nostre pagine dedicate alle soluzioni per scoprire come l'IA viene applicata nel settore manifatturiero e agricolo.

Logo di FacebookLogo di TwitterLogo di LinkedInSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico