Sözlük

Vizyon Dönüştürücüsü (ViT)

Bilgisayarla görmede Görme Dönüştürücülerinin (ViT'ler) gücünü keşfedin. Küresel görüntü bağlamını yakalayarak CNN'lerden nasıl daha iyi performans gösterdiklerini öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Görüntü Dönüştürücüsü (ViT), aslen Doğal Dil İşleme (NLP) için tasarlanmış olan Dönüştürücü modellerinden uyarlanmış bir tür sinir ağı mimarisidir. Google araştırmacıları tarafından "Bir Görüntü 16x16 Kelimeye Bedeldir" adlı makalede tanıtılan ViT'ler, görüntü işlemeyi bir dizi modelleme görevi olarak ele alarak Transformer'ın kendi kendine dikkat mekanizmasını doğrudan görüntü yamaları dizilerine uygular. Bu yaklaşım, bilgisayarla görmede (CV) Evrişimsel Sinir Ağlarının (CNN 'ler) hakimiyetinden önemli bir değişime işaret etmektedir.

Görüş Transformatörleri Nasıl Çalışır?

Konvolüsyonel filtreler kullanarak görüntüleri piksel piksel işlemek yerine, bir ViT önce bir giriş görüntüsünü sabit boyutlu, örtüşmeyen yamalara böler. Bu yamalar daha sonra vektörler halinde düzleştirilir, doğrusal olarak gömülür ve uzamsal bilgileri korumak için konumsal gömmelerle zenginleştirilir (NLP'de kelime konumlarının kodlanmasına benzer şekilde). Bu vektör dizisi daha sonra, farklı yamaların birbirlerine göre önemini tartmak için çok kafalı öz dikkat katmanlarını kullanan standart bir Transformer kodlayıcıya beslenir. Transformer kodlayıcının nihai çıktısı, görüntü sınıflandırma gibi görevler için tipik olarak basit bir sınıflandırma kafasına (Çok Katmanlı Algılayıcı gibi) aktarılır. Bu mimari, ViT'lerin bir görüntüdeki uzun menzilli bağımlılıkları ve küresel bağlamı etkili bir şekilde modellemesine olanak tanır.

Uygunluk ve Uygulamalar

Görme Dönüştürücüleri, ölçeklenebilirlikleri ve etkileyici performansları nedeniyle, özellikle ImageNet gibi veri kümeleri ve hatta daha büyük tescilli veri kümeleri üzerinde büyük ölçekli ön eğitim ile modern derin öğrenmede oldukça önemli hale gelmiştir. Küresel bağlamı modelleme yetenekleri, onları temel sınıflandırmanın ötesinde çok çeşitli CV görevleri için uygun hale getirir:

ViT'ler Ultralytics HUB gibi platformlara ve Hugging Face Transformers gibi kütüphanelere giderek daha fazla entegre edilmekte ve aşağıdaki gibi çerçeveler kullanılarak araştırma ve dağıtım için erişilebilir hale getirilmektedir PyTorch ve TensorFlow. Ayrıca, aşağıdaki gibi araçlar kullanılarak NVIDIA Jetson veya Google'ın Edge TPU 'su gibi cihazlarda Edge AI dağıtımı için optimize edilebilirler TensorRT.

ViT Vs. CNN'ler

Hem ViT'ler hem de CNN'ler bilgisayarla görmede temel mimariler olsa da (bkz . Görme Modellerinin Tarihçesi), yaklaşımları açısından önemli farklılıklar gösterirler:

  • Tümevarımsal Önyargı: CNN'ler, konvolüsyon ve havuzlama katmanları aracılığıyla yerellik ve çeviri eşitliğine yönelik güçlü tümevarımsal önyargılara sahiptir. ViT'ler daha zayıf tümevarımsal önyargılara sahiptir ve verilerden örüntüleri, özellikle de bir görüntünün uzak kısımları arasındaki ilişkileri kendi kendine dikkat yoluyla öğrenmeye daha fazla güvenir.
  • Veri Bağımlılığı: ViT'lerin son teknoloji CNN'lerden daha iyi performans göstermesi için genellikle büyük miktarda eğitim verisi (veya kapsamlı ön eğitim) gerekir. Daha küçük veri kümeleriyle, CNN'ler genellikle yerleşik önyargıları nedeniyle daha iyi genelleme yapar.
  • Hesaplama Maliyeti: ViT'lerin eğitimi hesaplama açısından yoğun olabilir ve genellikle önemli GPU kaynakları gerektirir. Bununla birlikte, çıkarım hızı özellikle daha büyük modeller için rekabetçi olabilir. Örneğin RT-DETR modelleri gerçek zamanlı performans sunar, ancak karşılaştırılabilir CNN tabanlı YOLO modellerinden daha yüksek kaynak ihtiyaçlarına sahip olabilir.
  • Küresel ve Yerel Bağlam: CNN'ler yerel örüntülerden hiyerarşik özellikler oluşturur. ViT'ler, en erken katmanlardan itibaren yamalar arasındaki küresel etkileşimleri modelleyebilir ve potansiyel olarak belirli görevler için daha geniş bağlamı daha etkili bir şekilde yakalayabilir.

ViT ve CNN arasındaki seçim genellikle belirli göreve, mevcut veri kümelerine ve hesaplama kaynaklarına bağlıdır. ViT'ler genellikle büyük miktarda eğitim verisi mevcut olduğunda ve küresel bağlam çok önemli olduğunda mükemmeldir. CNN'ler, omurga olarak kullanılanlar gibi Ultralytics YOLO ailesi (örn, YOLOv8, YOLOv10, YOLO11), özellikle kısıtlı cihazlarda gerçek zamanlı nesne tespiti için oldukça etkili ve verimli olmaya devam etmektedir. Konvolüsyonel özellikleri dönüştürücü katmanlarla ( RT-DETR'de olduğu gibi) birleştiren hibrit mimariler de her iki yaklaşımın güçlü yönlerinden yararlanmaya çalışan umut verici bir yönü temsil etmektedir. İster ViT ister CNN tabanlı olsun, önceden eğitilmiş modellere ince ayar yapmak, transfer öğrenme gibi tekniklerin kullanıldığı yaygın bir uygulamadır.

Tümünü okuyun