Sözlük

Vizyon Dönüştürücüsü (ViT)

Bilgisayarla görmede Görme Dönüştürücülerinin (ViT'ler) gücünü keşfedin. Küresel görüntü bağlamını yakalayarak CNN'lerden nasıl daha iyi performans gösterdiklerini öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Vision Transformer (ViT), aslen doğal dil işleme için geliştirilen Transformer mimarisini görüntü tanıma görevlerine uyarlayarak bilgisayarla görme alanında önemli bir değişimi temsil etmektedir. Görüntüleri katman katman işleyen geleneksel Evrişimsel Sinir Ağlarının (CNN'ler) aksine, ViT'ler bir görüntüyü daha küçük yamalara ayırır ve bu yamaları bir cümledeki kelimeler gibi bir dizideki belirteçler olarak ele alır. Bu yeni yaklaşım, ViT'lerin bir görüntüdeki küresel ilişkileri yakalamak için Transformer'ın güçlü kendi kendine dikkat mekanizmasından yararlanmasına olanak tanıyarak çeşitli bilgisayarla görme görevlerinde en gelişmiş performansı elde etmesini sağlar.

Görüş Transformatörleri Nasıl Çalışır?

Özünde, bir Görüntü Dönüştürücüsü görüntüleri önce sabit boyutlu yamalardan oluşan bir ızgaraya bölerek işler. Bu yamalar daha sonra düzleştirilir ve doğrusal olarak esasen vektör temsilleri olan katıştırmalara dönüştürülür. Görüntü yapısını anlamak için çok önemli olan uzamsal bilgileri korumak için bu yama gömülerine konumsal gömüler eklenir. Bu gömülü yamalar dizisi daha sonra standart bir Transformer kodlayıcıya beslenir.

Transformatör kodlayıcı, çok kafalı kendi kendine dikkat ve ileri besleme ağlarının çoklu katmanlarından oluşur. Buradaki kilit bileşen, modelin görüntüyü işlerken her bir yamanın önemini diğer tüm yamalara göre tartmasını sağlayan kendi kendine dikkat mekanizmasıdır. Bu, ViT'nin görüntünün küresel bağlamını anlamasını ve yerel özelliklere odaklanan CNN'ler tarafından gözden kaçırılabilecek uzun menzilli bağımlılıkları yakalamasını sağlar. Bu küresel bağlam anlayışı, Vision Transformers'ın birincil gücüdür. Temel ilkeleri daha derinlemesine incelemek için Jay Allammar'ın "The Illustrated Transformer" gibi kaynaklar Transformer mimarisinin mükemmel görsel açıklamalarını sunmaktadır.

Uygunluk ve Uygulamalar

Görme Dönüştürücüleri, etkileyici performansları ve ölçeklenebilirlikleri nedeniyle hızla önem kazanmıştır. Küresel bağlamı yakalama yetenekleri ve büyük veri kümelerinden yararlanma kapasiteleri, onları modern derin öğrenme uygulamalarında oldukça önemli hale getirmiştir. ViT'lerin temel uygulamaları şunları içerir:

  • Görüntü Sınıflandırma: ViT'ler, görüntü sınıflandırma ölçütlerinde en iyi sonuçları elde etmiş ve genellikle geleneksel CNN tabanlı modellerin performansını geride bırakmıştır. Mimarileri, ImageNet gibi büyük veri kümeleri üzerinde eğitildiklerinde özellikle etkilidir.
  • Nesne Algılama: Görme Dönüştürücüler, nesne algılama çerçevelerinde omurga olarak giderek daha fazla kullanılmaktadır. Gibi modeller RT-DETRUltralytics , yüksek doğrulukla gerçek zamanlı performans elde etmek için Vision Transformers'tan yararlanır.
  • Görüntü Segmentasyonu: ViT'ler görüntü segmentasyon görevlerinde de etkilidir ve tıbbi görüntü analizi ve otonom sürüş gibi uygulamalar için hassas piksel düzeyinde sınıflandırma sağlar. Örneğin, Segment Anything Model (SAM ) güçlü segmentasyon yetenekleri için bir ViT omurgası kullanır.

Gerçek dünyadaki uygulamalar çeşitli sektörleri kapsamaktadır. Sağlık hizmetlerinde ViT'ler, gelişmiş teşhis için tıbbi görüntü analizine yardımcı olur. Tarımda, mahsul izleme ve hastalık tespitini geliştirirler. Ayrıca, verimlilikleri ve doğrulukları, NVIDIA Jetson ve Raspberry Pi kılavuzlarında keşfedildiği gibi, onları uç cihazlarda dağıtım için uygun hale getirir.

Görüntü Dönüştürücüler ve CNN'ler

CNN'ler uzun zamandır bilgisayarla görmede baskın mimari olsa da, Vision Transformers temelde farklı bir yaklaşım sunuyor. CNN'ler, konvolüsyonel katmanlar aracılığıyla yerel örüntüleri yakalamada mükemmeldir ve bu da onları yerel özelliklerin çok önemli olduğu görevler için verimli kılar. Ancak bazen uzun menzilli bağımlılıkları ve küresel bağlamı yakalamakta zorlanabilirler. Öte yandan ViT'ler, kendi dikkat mekanizmaları aracılığıyla küresel bağlamı doğal olarak yakalar ve sahnenin bütünsel bir şekilde anlaşılmasını gerektiren görevlerde avantaj sağlar.

Güçlü yönlerine rağmen ViT'ler, optimum performans elde etmek için tipik olarak CNN'lere kıyasla eğitim için önemli ölçüde daha büyük veri kümeleri gerektirir. CNN'ler daha küçük veri kümeleri ve yerel özellik çıkarımına odaklanan görevler için hesaplama açısından daha verimli olabilir. ViT'ler ve CNN'ler arasındaki seçim genellikle özel uygulamaya, veri kümesi boyutuna ve mevcut hesaplama kaynaklarına bağlıdır. Görme Dönüştürücüler, bilgisayarla görmede önemli bir evrimi temsil etmekte, dikkat mekanizmalarının gücünü göstermekte ve bu alanda gelecekteki ilerlemelerin önünü açmaktadır.

Tümünü okuyun