X
Ultralytics YOLOv8.2 Serbest BırakmaUltralytics YOLOv8.2 Serbest BırakmaUltralytics YOLOv8.2 Serbest Bırakma Oku
Yeşil çek
Panoya kopyalanan bağlantı

Google DeepMind'ın Veo'su ile Video Oluşturma

Google DeepMind'ın metin, resim ve video istemlerinden zahmetsizce yüksek kaliteli 1080P videolar oluşturabilen en yeni üretici video modeli Veo hakkında daha fazla bilgi edinin.

Google'ın 14 Mayıs'taki 2024 I/O sunumu sırasında, yapay zeka bölümü DeepMind'ın en son güncellemeleri paylaşıldı. Paylaşılan en heyecan verici gelişmelerden biri, en yeni jeneratif video modeli Veo idi. Veo, metin, resim ve video istemlerine dayalı olarak yüksek kaliteli 1080P videolar oluşturabiliyor. Hatta oluşturulan videoları sonraki komutlarla düzenlemenize de olanak tanıyor. Veo, üretken yapay zekayı bir üst seviyeye taşıyor. Şimdi Veo'nun sunduğu özelliklere daha yakından bakalım. 

Veo'nun Yeteneklerini Anlamak

Veo, kullanıcının yaratıcı vizyonuyla yakından eşleşen videolar oluşturmak için derin bir dil ve görsel anlayışı kullanan üretken bir video modelidir. Daha uzun ipuçlarının tonunu ve ayrıntılarını doğru bir şekilde yakalayabilir, bu da onu fikirlerini kesin video içeriğine dönüştürmek isteyen içerik oluşturucular için güçlü bir araç haline getirir.

Veo "timelapse" ve "bir manzaranın havadan çekimi" gibi film tekniklerini anlayabildiği için kullanıcı, oluşturulan video üzerinde çığır açan bir yaratıcı kontrole sahip olabilir. Bu yaratıcı kontrol, kullanıcıların insanların, hayvanların ve nesnelerin doğal bir şekilde hareket ettiği videolar oluşturmasını mümkün kılar. Veo tarafından üretilen videolar ilgi çekici ve görsel olarak çekici çünkü bir yapay zeka modeli tarafından üretildiklerini fark etmek zor.

Veo, yalnızca istemlerden video oluşturmanın ötesine geçer. Önceden oluşturulmuş bir video ve bir sahil şeridinin havadan görüntüsüne kano eklemek gibi özel bir düzenleme talebi sağlarsanız, Veo bu değişikliği orijinal videoya sorunsuz bir şekilde entegre ederek güncellenmiş bir sürüm oluşturabilir.

Şekil 1. Veo kullanarak bir video düzenleme örneği.

İşte Veo'nun sunduğu diğer bazı özellikler:

  • Maskeli Düzenleme: Veo, bir videonun tanımlanmış alanlarını düzenlemenize yardımcı olabilir.
  • Görüntüden Esinlenen Video Oluşturma: Veo, bir görsel ve bir metin komut istemi kullanarak, görselin stilini yansıtan ve komut isteminin yönergelerini izleyen videolar oluşturabilir.
  • Genişletilmiş Video Klipler: Veo, tek bir ipucundan veya birlikte bir hikaye anlatan bir dizi ipucundan 60 saniye veya daha uzun video klipler oluşturabilir ve uzatabilir.

Veo'nun Hazırladığı Nefes Kesen Videolar

Veo'nun ürettiği videolardan bazılarını ve neden bu kadar nefes kesici olduğunu inceleyelim. 

Kısa bir metin isteminden zaman atlamalı bir video oluşturmak zordur. Tipik olarak, kısa metin istemi zaman atlamalı sahnedeki değişiklikleri ve hareketleri doğru bir şekilde aktaramaz. Dolayısıyla, Veo'nun ayrıntılara girmeden bir zaman atlamasından ne bekleneceğini anlayabilmesi şaşırtıcıdır. 

Şekil 2. Veo'nun oluşturduğu hızlandırılmış videodan bir kare.

Benzer şekilde, doğru fiziğe sahip videolar oluşturmak da kolay değildir. Yapay zeka modelinin, hareketlerin ve etkileşimlerin gerçekçi görünmesini sağlamak için yerçekimi, momentum ve çarpışmalar gibi fizik kurallarını anlaması ve simüle etmesi gerekir. Veo'nun bu dinamikleri metin istemlerinden ayrıntılı rehberlik olmadan doğru bir şekilde modelleyebilmesi etkileyicidir.

Şekil 3. Veo kullanılarak oluşturulan bir videodan alınan bir kare, denizanası hareketinin fiziğini doğru bir şekilde yakalıyor.

Şimdiye kadar, hesaplama sınırlamaları ve daha uzun sekanslarda tutarlılığı korumanın karmaşıklığı nedeniyle yapay zeka tarafından üretilen yalnızca daha kısa videolar gördük. Google'ın 2024 I/O sunumunda Veo'nun daha uzun ve daha karmaşık videolar oluşturma konusundaki akıllara durgunluk veren yeteneği gösterildi.

Şekil 4. Google 2024 I/O sunumunda gösterilen daha uzun Veo videosundan kareler.

Veo Nasıl Çalışır?

Diğer birçok yapay zeka modeli gibi Veo da devlerin omuzlarında yükseliyor. Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet ve Lumiere gibi önceki gelişmelerin yanı sıra Google'ın tescilli Transformer mimarisi ve Gemini'den de yararlanıyor. Ayrıca, Veo'nun istemleri doğru bir şekilde yorumlama yeteneğini geliştirmek için, eğitim veri kümesindeki her videonun altyazıları daha ayrıntılı hale getirildi. 

Google tarafından paylaşılan kaba model iş akışına dayanarak, Veo'nun nasıl çalıştığı aşağıda açıklanmıştır:

  • Giriş İstemleri: Bir metin istemi ve isteğe bağlı olarak bir resim istemi sağlarsınız.
  • Kodlama: Metin istemi bir UL2 Kodlayıcı tarafından işlenir ve görüntü istemi bir görüntü kodlayıcı tarafından işlenir.
  • Gömülü Bilgi İstemi: Metin ve görüntü kodlayıcılardan gelen çıktılar tek bir gömülü istem oluşturmak için birleştirilir.
  • Gizli Difüzyon Modeli: Gömülü istem ve gürültülü bir sıkıştırılmış video, bunları kullanarak sıkıştırılmış bir video oluşturan bu modele aktarılır. Veo, kaliteyi korurken verimliliği artırmak için latentler olarak bilinen yüksek kaliteli, sıkıştırılmış video temsillerini kullanır.
  • Kod Çözme: Son adım, sıkıştırılmış videodan 1080p video çıkışının kodunu çözer.
Şekil 5. Veo nasıl çalışır?

Film Yapımında Etkileyici Bir Vaka Çalışması

Google, Veo'nun yeteneklerini test etmek için film yapımcısı Donald Glover ve yaratıcı stüdyosu Gilga ile birlikte çalıştı. Hassas hareket ve tutarlı çerçeveleme gerektiren dinamik takip çekimleri de dahil olmak üzere çeşitli yaratıcı teknikleri keşfetmek için Veo'yu kullandılar. 

Şekil 6. Film yapım sürecinde Veo kullanımı.

Geleneksel olarak, film yapımcıları zaman ve kaynak kısıtlamaları nedeniyle sınırlamalarla karşılaşırlar. Veo ile Glover ve ekibi karmaşık çekimleri hızla deneyip üretebildi ve bu da film yapım sürecinde daha fazla esneklik ve yenilik sağladı.

Veo ile Glover ve ekibi, gerçek çekimlerden önce karmaşık çekimleri hızla deneyebiliyor ve oluşturabiliyordu. Örneğin, nasıl görüneceklerini görmek ve gerektiğinde ayarlamalar yapmak için çeşitli dinamik izleme çekimlerini test edebildiler. Bu ön görselleştirme süreci, fikirlerini rafine etmelerine ve çekimlerin amaçlandığı gibi çalışacağından emin olmalarına yardımcı oldu ve sonuçta gerçek çekimler sırasında gereken çekim sayısını azalttı. Veo'nun film endüstrisini değiştirme potansiyelini göstermek için ilgi çekici bir vaka çalışması oluşturabildiler. Veo, yaratıcı vizyonları hayata geçirmek için daha hızlı ve daha verimli bir yol sunuyor.

Veo'nun Çeşitli Sektörlerdeki Pratik Kullanım Alanları 

Veo'nun gelişmiş video oluşturma yetenekleri birçok sektörde pratik uygulamalara sahiptir. Reklamcılıkta, hedeflenen kitleler için hızlı bir şekilde özelleştirilmiş, yüksek kaliteli reklamlar üretebilir, zamandan ve üretim maliyetlerinden tasarruf sağlar. Eğitimde Veo, karmaşık kavramların anlaşılmasını kolaylaştıran ilgi çekici eğitici videolar oluşturabilir. 

İşletmeler Veo'yu eğitim ve kurumsal iletişim için kullanabilir. Sağlık uzmanları Veo'yu eğitim amaçlı tıbbi prosedürleri simüle etmek için kullanabilir. Sanal etkinlikler ve konferanslarla ilgili olarak Veo, mekanların ve sahnelerin gerçeğe yakın simülasyonlarını oluşturarak katılımcılara her yerden ilgi çekici ve etkileşimli bir deneyim sunabilir. Organizatörler, genişletilmiş erişimden ve gelecekteki etkinlikler için değerli içgörülerden yararlanır. Veo sayesinde sayısız fırsat ortaya çıktı.

Bir yapay zeka modeli farklı sektörlere dokunma potansiyeline sahip olduğunda, güvenlik ve etik yapay zekayı akılda tutmak önemlidir. Daha geniş çapta benimsenmesini ve sorumlu bir şekilde kullanılmasını sağlamak için Google çeşitli güvenlik önlemleri aldı. Veo tarafından oluşturulan videolar, AI tarafından oluşturulan içeriği filigranlamak ve tanımlamak için bir araç olan SynthID kullanılarak filigranlanmıştır. SynthId şeffaflık sağlar ve gizlilik, telif hakkı ve önyargı risklerini azaltmaya yardımcı olur. Bunun dışında, oluşturulan tüm videolar güvenlik filtrelerinden ve ezber kontrol süreçlerinden geçer. Bu önlemler Veo'yu sorumlu ve yenilikçi video üretimini destekleyen değerli ve etik bir araç haline getiriyor.

Veo'ya Nereden Erişilir

Google, önümüzdeki haftalarda Veo'nun çığır açan özelliklerinden bazılarını labs.google adresinde bulunan yeni bir araç olan VideoFX aracılığıyla belirli içerik oluşturuculara sunmaya başlayacak. Bu girişim, Veo'nun gelişmiş video oluşturma yeteneklerine erken erişim sağlayarak içerik oluşturuculara yenilikçi özelliklerini deneme fırsatı veriyor. Veo için bekleme listesi şu anda açık ve ilgilenen içerik oluşturucuları kaydolmaya ve Veo'nun güçlü araçlarını projelerinde kullanmaya davet ediyor.

DeepMind'ın 2024 Üretken Yapay Zeka Güncellemeleri hakkında daha fazla bilgi

Veo'nun yanı sıra DeepMind, 2024 için üretken yapay zeka alanında birçok son teknoloji güncellemeyi tanıttı. Bu güncellemelerden biri de şimdiye kadarki en gelişmiş metin-imge modeli olan Imagen 3. Imagen 3, fotogerçekçi ve gerçeğe yakın görüntüler yaratma konusunda oldukça başarılı. Doğal dil istemlerini derinlemesine anlıyor ve görsel yapaylıkları en aza indirirken karmaşık ayrıntıları yakalıyor.

Şekil 7. Imagen 3 kullanılarak oluşturulmuş bir görüntü.

DeepMind ayrıca yapay zeka müzik üretimi için en gelişmiş modeli olan Lyria'yı geliştirdi. Bu çabanın bir parçası olarak DeepMind, Music AI Sandbox adlı bir müzik yapay zeka araçları paketi oluşturdu. Bu araçlar müzisyenlerin ve yapımcıların müzik kompozisyonu ve ses dönüşümünde yeni yaratıcı olasılıkları keşfetmelerini sağlıyor.

Şekil 8. DeepMind'ın yapay zeka müzik araçlarının örnek bir kullanıcı arayüzü.

Veo'ya benzer şekilde, DeepMind diğer güncellemeleriyle ilgili olarak da çeşitli güvenlik önlemlerini uygulamaya koydu. SynthID, bu güncellemelerde yapay zeka tarafından üretilen içeriğin filigranlanması ve tanımlanması için bir araç olarak kullanılacak. DeepMind'ın bu güncellemeleri, yüksek kaliteli görsel ve işitsel içerik oluşturmak için gelişmiş, verimli ve sorumlu araçlar sunarak çeşitli sektörleri dönüştürmeyi vaat ediyor.

Üretken Yapay Zekanın Bir Sonraki Aşamasında Gezinmek

DeepMind'ın Veo, Imagen 3 ve Lyria'yı da içeren 2024 jeneratif yapay zeka geliştirmeleri, yapay zeka yeteneklerinde önemli bir sıçramaya işaret ediyor. Veo, basit komutlardan yüksek kaliteli 1080p videolar üretme becerisiyle video oluşturmayı dönüştürerek film yapımcıları ve içerik oluşturucular için çok yönlü bir araç haline getiriyor. Imagen 3 fotogerçekçi görüntüler üretmede parlarken, Lyria gelişmiş yapay zeka araçlarıyla müzik üretiminde yeni olanaklar sunuyor.

Bu teknolojiler, yüksek kaliteli görsel ve işitsel içerik oluşturmak için verimli ve sorumlu araçlar sağlayarak çeşitli endüstrileri dönüştürmeyi vaat ediyor. Etik kullanım sağlayan SynthID gibi güvenlik önlemleriyle DeepMind, yapay zekanın sınırlarını genişletmeye devam ederek gelecekte yenilikçi uygulamaların önünü açıyor.

GitHub depomuzu ziyaret ederek ve topluluğumuza katılarak yapay zekaya dalın. Yapay zekanın üretim ve tarımda nasıl uygulandığını öğrenmek için çözüm sayfalarımızı keşfedin.

Facebook logosuTwitter logosuLinkedIn logosuKopya-bağlantı sembolü

Bu kategoride daha fazlasını okuyun

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın