Google DeepMind Veo: Yeni Yapay Zeka Video Oluşturucu

Google'ın 14 Mayıs'taki 2024 I/O sunumu sırasında, yapay zeka bölümü DeepMind'ın en son güncellemeleri paylaşıldı. Paylaşılan en heyecan verici gelişmelerden biri, en yeni jeneratif video modeli Veo'ydu. Veo, metin, resim ve video istemlerine dayalı olarak yüksek kaliteli 1080P videolar oluşturabiliyor. Hatta oluşturulan videoları sonraki komutlarla düzenlemenize de olanak tanıyor. Veo, üretken yapay zekayı bir üst seviyeye taşıyor. Şimdi Veo'nun sunduğu özelliklere daha yakından bakalım.

Veo'nun yeteneklerini anlamak

Veo, kullanıcının yaratıcı vizyonuyla yakından eşleşen videolar oluşturmak için dil ve görselleri derinlemesine anlayan üretken bir video modelidir. Daha uzun istemlerin tonunu ve ayrıntılarını doğru bir şekilde yakalayabilir, bu da onu fikirlerini hassas video içeriğine dönüştürmek isteyen içerik oluşturucular için güçlü bir araç haline getirir.

Kullanıcı, Veo'nun "hızlandırılmış çekim" ve "bir manzaranın havadan çekimleri" gibi film tekniklerini anlayabilmesi sayesinde oluşturulan video üzerinde çığır açan bir yaratıcı kontrole sahip olabilir. Bu yaratıcı kontrol, kullanıcıların insanların, hayvanların ve nesnelerin doğal olarak hareket ettiği videolar oluşturmasını mümkün kılar. Veo tarafından oluşturulan videolar ilgi çekici ve görsel olarak çekicidir, çünkü bir AI modeli tarafından oluşturulduklarını fark etmek zordur.

Veo, yalnızca istemlerden videolar oluşturmanın ötesine geçer. Önceden oluşturulmuş bir video ve belirli bir düzenleme isteği (örneğin, bir sahil şeridinin havadan görünümüne kanolar eklemek) sağlarsanız, Veo bu değişikliği orijinal videoya sorunsuz bir şekilde entegre edebilir ve güncellenmiş bir sürüm üretebilir.

Şekil 1. Veo kullanarak video düzenlemeye bir örnek.

İşte Veo'nun sunduğu bazı ek özellikler:

Maskelenmiş Düzenleme: Veo, bir videonun tanımlanmış alanlarını düzenlemenize yardımcı olabilir.
‍
Görüntüden İlham Alan Video Oluşturma: Bir görüntü ve bir metin istemi kullanarak Veo, görüntünün stilini yansıtan ve istemin talimatlarını izleyen videolar oluşturabilir.
‍
Genişletilmiş Video Klipleri: Veo, tek bir istemden veya birlikte bir hikaye anlatan bir dizi istemden video klipleri oluşturabilir ve 60 saniye veya daha fazlasına uzatabilir.

Veo'nun oluşturduğu nefes kesen videolar

Veo'nun oluşturduğu videolardan bazılarını ve neden bu kadar nefes kesici olduklarını inceleyelim.

Kısa bir metin isteminden bir zaman atlamalı video oluşturmak zordur. Genellikle, kısa metin istemi, zaman atlamalı sahne içindeki değişiklikleri ve hareketleri doğru bir şekilde iletemez. Bu nedenle, Veo'nun bir zaman atlamasından ne bekleneceğini ayrıntılara girmeden anlayabilmesi şaşırtıcıdır.

Şekil 2. Veo'nun oluşturduğu zaman atlamalı videodan bir kare.

‍

Benzer şekilde, doğru fizik ile videolar oluşturmak kolay değildir. Yapay zeka modelinin, hareketlerin ve etkileşimlerin gerçekçi görünmesini sağlamak için yerçekimi, momentum ve çarpışmalar gibi fizik yasalarını anlaması ve simüle etmesi gerekir. Veo'nun bu dinamikleri metin istemlerinden ayrıntılı bir rehberlik olmadan doğru bir şekilde modelleyebilmesi etkileyicidir.

Şekil 3. Veo kullanılarak oluşturulan bir videodan alınan bir kare, denizanası hareketinin fiziğini doğru bir şekilde yakalar.

‍

Şimdiye kadar, hesaplama sınırlamaları ve daha uzun sekanslarda tutarlılığı korumanın karmaşıklığı nedeniyle yapay zeka tarafından üretilen yalnızca daha kısa videolar gördük. Google'ın 2024 I/O sunumunda Veo'nun daha uzun ve daha karmaşık videolar yaratma konusundaki akıllara durgunluk veren yeteneği gösterildi.

Şekil 4. Google 2024 I/O sunumunda gösterilen daha uzun Veo videosundan kareler.

‍

Veo nasıl çalışır?

Diğer birçok yapay zeka modeli gibi Veo da devlerin omuzlarında yükseliyor. Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet ve Lumiere gibi önceki gelişmelerin yanı sıra Google'ın tescilli Transformer mimarisi ve Gemini'den de yararlanıyor. Ayrıca, Veo'nun istemleri doğru bir şekilde yorumlama yeteneğini geliştirmek için, eğitim veri kümesindeki her videonun altyazıları daha ayrıntılı hale getirildi.

Google tarafından paylaşılan kaba model iş akışına dayanarak, Veo'nun nasıl çalıştığı aşağıda açıklanmıştır:

Giriş İstemleri: Bir metin istemi ve isteğe bağlı olarak bir görüntü istemi sağlarsınız.
‍
Kodlama: Metin istemi bir UL2 Kodlayıcı tarafından, görüntü istemi ise bir görüntü kodlayıcı tarafından işlenir.
‍
Gömülü İstek (Embedded Prompt): Metin ve görüntü kodlayıcılarından elde edilen çıktılar, tek bir gömülü istek oluşturmak için birleştirilir.
‍
Latent Diffusion Modeli: Gömülü istem ve gürültülü sıkıştırılmış bir video, bunları kullanarak sıkıştırılmış bir video üreten bu modele iletilir. Veo, kaliteyi korurken verimliliği artırmak için latents olarak bilinen yüksek kaliteli, sıkıştırılmış video temsillerini kullanır.
‍
Kod Çözme: Son adım, sıkıştırılmış videodan 1080p video çıktısının kodunu çözer.

‍

Film yapımında ilgi çekici bir örnek olay incelemesi

Google , Veo'nun yeteneklerini test etmek için film yapımcısı Donald Glover ve yaratıcı stüdyosu Gilga ile birlikte çalıştı. Hassas hareket ve tutarlı çerçeveleme gerektiren dinamik takip çekimleri de dahil olmak üzere çeşitli yaratıcı teknikleri keşfetmek için Veo'yu kullandılar.

Şekil 6. Veo'nun film yapım sürecinde kullanılması.

‍

Geleneksel olarak, film yapımcıları zaman ve kaynak kısıtlamaları nedeniyle sınırlamalarla karşı karşıyadır. Veo ile Glover ve ekibi, karmaşık çekimleri hızla deneyebilir ve oluşturabilir, bu da film yapım sürecinde daha fazla esneklik ve yenilik sağladı.

Veo ile Glover ve ekibi, gerçek çekimlerden önce karmaşık çekimleri hızlı bir şekilde deneyebilir ve oluşturabilirdi. Örneğin, nasıl görüneceklerini görmek ve gerektiğinde ayarlamalar yapmak için çeşitli dinamik takip çekimlerini test edebilirlerdi. Bu ön görselleştirme süreci, fikirlerini geliştirmelerine ve çekimlerin amaçlandığı gibi çalışmasını sağlamalarına yardımcı oldu ve sonuçta gerçek çekimler sırasında gereken çekim sayısını azalttı. Veo'nun film endüstrisini değiştirme potansiyelini göstermek için ilgi çekici bir örnek olay incelemesi oluşturabildiler. Yaratıcı vizyonları hayata geçirmenin daha hızlı ve daha verimli bir yolunu sunuyor.

Veo'nun çeşitli sektörlerdeki pratik kullanımları

Veo'nun gelişmiş video oluşturma yetenekleri, birçok sektörde pratik uygulamalara sahiptir. Reklamcılıkta, hedeflenen kitleler için özelleştirilmiş, yüksek kaliteli reklamları hızla üretebilir, böylece zamandan ve üretim maliyetlerinden tasarruf sağlar. Eğitimde ise Veo, ilgi çekici öğretici videolar oluşturarak karmaşık kavramların anlaşılmasını kolaylaştırabilir.

İşletmeler, Veo'yu eğitim ve kurumsal iletişim için kullanabilir. Sağlık profesyonelleri, eğitim amaçlı tıbbi prosedürleri simüle etmek için Veo'yu kullanabilir. Sanal etkinlikler ve konferanslarla ilgili olarak Veo, mekanların ve sahnelerin gerçeğe yakın simülasyonlarını oluşturarak katılımcılara her yerden ilgi çekici ve etkileşimli bir deneyim sunabilir. Organizatörler, genişletilmiş erişim ve gelecekteki etkinlikler için değerli bilgilerden yararlanır. Veo sayesinde sayısız fırsat ortaya çıktı.

Bir yapay zeka modeli farklı sektörlere dokunma potansiyeline sahip olduğunda, güvenlik ve etik yapay zekayı akılda tutmak önemlidir. Daha geniş çapta benimsenmesini ve sorumlu bir şekilde kullanılmasını sağlamak için Google çeşitli güvenlik önlemleri aldı. Veo tarafından oluşturulan videolar, yapay zeka tarafından oluşturulan içeriği filigranlamak ve tanımlamak için kullanılan bir araç olan SynthID kullanılarak filigranlanıyor. SynthId şeffaflık sağlar ve gizlilik, telif hakkı ve önyargı risklerini azaltmaya yardımcı olur. Bunun dışında, oluşturulan tüm videolar güvenlik filtrelerinden ve ezber kontrol süreçlerinden geçer. Bu önlemler Veo'yu sorumlu ve yenilikçi video üretimini destekleyen değerli ve etik bir araç haline getiriyor.

Veo'ya nereden erişilir

Google , önümüzdeki haftalarda Veo'nun çığır açan özelliklerinden bazılarını labsgoogle adresinde bulunan yeni bir araç olan VideoFX aracılığıyla belirli içerik oluşturuculara sunmaya başlayacak. Bu girişim, Veo'nun gelişmiş video oluşturma yeteneklerine erken erişim sağlayarak içerik oluşturuculara yenilikçi özelliklerini deneme fırsatı veriyor. Veo için bekleme listesi şu anda açık ve ilgilenen içerik oluşturucuları kaydolmaya ve Veo'nun güçlü araçlarını projelerinde kullanmaya davet ediyor.

DeepMind'in 2024 üretken yapay zeka güncellemeleri hakkında daha fazla bilgi

Veo'nun yanı sıra DeepMind, 2024 için üretken yapay zeka alanında çeşitli son teknoloji güncellemeleri tanıttı. Bu güncellemelerden biri, şimdiye kadarki en gelişmiş metinden görüntüye modeli olan Imagen 3'tür. Imagen 3, fotogerçekçi, gerçekçi görüntüler oluşturmada mükemmeldir. Doğal dil istemlerini derinlemesine anlar ve görsel artefaktları en aza indirirken karmaşık ayrıntıları yakalar.

Şekil 7. Imagen 3 kullanılarak oluşturulmuş bir görüntü.

‍

DeepMind ayrıca, yapay zeka müzik üretimi için en gelişmiş modeli olan Lyria'yı geliştirdi. Bu çalışmanın bir parçası olarak DeepMind, Music AI Sandbox adlı bir müzik yapay zeka araçları paketi oluşturdu. Bu araçlar, müzisyenlerin ve yapımcıların müzik kompozisyonu ve ses dönüşümünde yeni yaratıcı olasılıkları keşfetmelerini sağlar.

Şekil 8. DeepMind'ın yapay zeka müzik araçlarının bir örnek kullanıcı arayüzü.

‍

Veo'ya benzer şekilde, DeepMind da diğer güncellemeleriyle ilgili olarak çeşitli güvenlik önlemleri uygulamıştır. SynthID, yapay zeka tarafından oluşturulan içeriği filigranlamak ve tanımlamak için bir araç olarak bu güncellemelerde kullanılacaktır. DeepMind'ın bu güncellemeleri, yüksek kaliteli görsel ve işitsel içerik oluşturmak için gelişmiş, verimli ve sorumlu araçlar sunarak çeşitli sektörleri dönüştürmeyi vaat ediyor.

Üretken YZ'nin bir sonraki aşamasında yol almak

DeepMind'ın Veo, Imagen 3 ve Lyria dahil olmak üzere 2024 üretken yapay zeka alanındaki ilerlemeleri, yapay zeka yeteneklerinde önemli bir sıçramayı işaret ediyor. Veo, basit istemlerden yüksek kaliteli 1080p videolar oluşturma yeteneğiyle video oluşturmayı dönüştürerek, film yapımcıları ve içerik oluşturucular için çok yönlü bir araç haline geliyor. Imagen 3, fotogerçekçi görüntüler üretmede öne çıkarken, Lyria gelişmiş yapay zeka araçlarıyla müzik üretiminde yeni olanaklar sunuyor.

Bu teknolojiler, yüksek kaliteli görsel ve işitsel içerik oluşturmak için verimli ve sorumlu araçlar sağlayarak çeşitli sektörleri dönüştürmeyi vaat ediyor. SynthID gibi güvenlik önlemleri etik kullanımı sağlarken, DeepMind yapay zekanın sınırlarını genişletmeye devam ediyor ve gelecekteki yenilikçi uygulamaların önünü açıyor.

GitHub depomuzu ziyaret ederek ve topluluğumuza katılarak yapay zekaya dalın. Yapay zekanın üretimde ve tarımda nasıl uygulandığını öğrenmek için çözümler sayfalarımızı keşfedin.

Google DeepMind'ın Veo'su ile video oluşturma

Veo'nun yeteneklerini anlamak

Veo'nun oluşturduğu nefes kesen videolar

Veo nasıl çalışır?

Film yapımında ilgi çekici bir örnek olay incelemesi

Veo'nun çeşitli sektörlerdeki pratik kullanımları

Veo'ya nereden erişilir

DeepMind'in 2024 üretken yapay zeka güncellemeleri hakkında daha fazla bilgi

Üretken YZ'nin bir sonraki aşamasında yol almak

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Google DeepMind'ın Veo'su ile video oluşturma

Veo'nun yeteneklerini anlamak

Veo'nun oluşturduğu nefes kesen videolar

Veo nasıl çalışır?

Film yapımında ilgi çekici bir örnek olay incelemesi

Veo'nun çeşitli sektörlerdeki pratik kullanımları

Veo'ya nereden erişilir

DeepMind'in 2024 üretken yapay zeka güncellemeleri hakkında daha fazla bilgi

Üretken YZ'nin bir sonraki aşamasında yol almak

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini birlikte inşa edelim!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!