Sözlük

Difüzyon Modelleri

Difüzyon modellerinin benzersiz ayrıntı ve kararlılığa sahip gerçekçi görüntüler, videolar ve veriler oluşturarak üretken yapay zekada nasıl devrim yarattığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Difüzyon Modelleri, makine öğreniminde (ML), özellikle bilgisayarla görme (CV) alanında yüksek kaliteli, çeşitli örnekler üretme yetenekleri nedeniyle büyük ilgi gören bir üretici model sınıfıdır. Termodinamikteki kavramlardan esinlenen bu modeller, saf gürültü haline gelene kadar bir "ileri süreçte" verilere (bir görüntü gibi) sistematik olarak gürültü ekleyerek ve ardından bu süreci tersine çevirmeyi öğrenerek çalışır. "Ters işlem", rastgele gürültüden başlayarak ve gerçekçi bir veri örneği oluşturulana kadar yinelemeli olarak iyileştirerek gürültüyü kademeli olarak gidermek için bir sinir ağının eğitilmesini içerir.

Difüzyon Modelleri Nasıl Çalışır?

Ana fikir iki aşamadan oluşmaktadır:

  1. İleri Difüzyon Süreci: Bu aşama orijinal bir veri örneğini (örneğin bir görüntü) alır ve birçok adımda kademeli olarak az miktarda Gauss gürültüsü ekler. Bu işlem orijinal görüntü rastgele gürültüden ayırt edilemez hale gelene kadar devam eder. Bu aşama sabittir ve öğrenme içermez.
  2. Ters Denoising Süreci: Öğrenmenin gerçekleştiği yer burasıdır. Tipik olarak U-Net gibi sofistike bir sinir ağı mimarisi olan bir model, ileri sürecin her adımında eklenen gürültüyü tahmin etmek için eğitilir. Üretim sırasında model saf gürültüyle başlar ve öğrendiği tahminleri kullanarak aynı sayıda adımda gürültüyü aşamalı olarak kaldırır, difüzyonu etkili bir şekilde tersine çevirir ve yeni bir veri örneği oluşturur. Bu adım adım iyileştirme, son derece ayrıntılı çıktıların oluşturulmasına olanak tanır.

Diğer Üretken Modellerle Karşılaştırma

Difüzyon modelleri, Generative Adversarial Networks (GANs) gibi diğer popüler üretken yaklaşımlardan önemli ölçüde farklıdır. GAN'lar birbirleriyle rekabet eden ve genellikle eğitimde istikrarsızlığa yol açan bir üretici ve bir ayırıcı içerirken, difüzyon modelleri daha istikrarlı eğitim dinamiklerine sahip olma eğilimindedir. GAN'lara kıyasla genellikle daha iyi örnek çeşitliliği ve kalitesi elde ederler, ancak çıkarım (üretim) sırasında genellikle daha fazla hesaplama adımı gerektirirler ve bu da onları daha yavaş hale getirir. Sıkıştırılmış bir gizli uzayı öğrenen Varyasyonel Otomatik Kodlayıcıların (VAE'ler) aksine, difüzyon modelleri gürültü ve denoising işlemi yoluyla doğrudan veri uzayında çalışır. Popüler bir varyant, verimliliği ve yüksek kaliteli çıktıları ile bilinen Kararlı Difüzyondur.

Difüzyon Modellerinin Uygulamaları

Difüzyon modelleri, yüksek doğrulukta üretim gerektiren görevlerde mükemmeldir:

  • Metinden Görüntüye Sentez: Google'ın Imagen ve OpenAI'nin DALL-E 2 gibi modelleri, metinsel açıklamalara dayalı ayrıntılı görüntüler oluşturmak için difüzyon tekniklerini kullanır. Kullanıcılar komutlar verebilir ve model ilgili görselleri oluşturur.
  • Tıbbi Görüntü Analizi: Eğitim verilerinin artırılması için sentetik tıbbi görüntüler oluşturma, tarama kalitesini artırmak için görüntü süper çözünürlüğü ve hatta sağlıklı doku dağılımını öğrenerek anormallik tespiti gibi görevler için kullanılabilirler. Örneğin, gerçekçi MRI veya CT taramaları oluşturmak, yalnızca sınırlı hasta verilerine dayanmadan tanısal yapay zeka modellerinin eğitilmesine yardımcı olabilir ve tümörler için görüntü segmentasyonu gibi görevleri tamamlayabilir.
  • Diğer Alanlar: Araştırmalar, ses üretimi, video üretimi( Google Veo gibi), ilaç keşfi için molekül tasarımı ve veri sıkıştırmada kullanımlarını araştırıyor.

Gibi çerçeveler PyTorch ve Hugging Face Diffusers kütüphan esi gibi kütüphaneler, geliştiricilerin difüzyon modellerini denemelerini ve dağıtmalarını kolaylaştıran araçlar ve önceden eğitilmiş modeller sağlar. Çeşitli ve yüksek kaliteli veri üretme yetenekleri, onları üretken yapay zekanın devam eden evriminde güçlü bir araç haline getirmektedir.

Tümünü okuyun