Sözlük

Vizyon Dönüştürücüsü (ViT)

Vision Transformers'ın (ViT) sınıflandırma, algılama ve segmentasyon görevlerinde üstünlük sağlayarak bilgisayarla görmede nasıl devrim yarattığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Görme Transformatörleri (ViT), geleneksel olarak doğal dil işlemede (NLP) kullanılan transformatör tabanlı mimarileri görme görevlerine getirerek bilgisayarla görmede devrim yaratmıştır. Konvolüsyonel işlemlere dayanan Konvolüsyonel Sinir Ağlarının (CNN'ler) aksine, ViT'ler görüntü verilerini analiz etmek ve işlemek için kendi kendine dikkat mekanizmalarını kullanır ve çeşitli görme zorluklarına daha esnek ve ölçeklenebilir bir yaklaşım sunar.

Görüş Transformatörleri Nasıl Çalışır?

ViT'ler bir giriş görüntüsünü daha küçük sabit boyutlu yamalara böler, düzleştirir ve her yamayı NLP'deki kelimelere benzer şekilde bir "belirteç" olarak ele alır. Bu belirteçler daha sonra yüksek boyutlu vektörlere gömülür ve kendi kendine dikkat mekanizmalarının modelin görüntünün ilgili kısımlarına odaklanmasını sağladığı çok katmanlı dönüştürücü kodlayıcılardan geçirilir. Bu yapı ViT'lerin hem yerel hem de küresel bağımlılıkları etkili bir şekilde yakalamasını sağlar.

ViT'ler, geleneksel dönüştürücülerin eksik olduğu görüntü verilerinin kritik bir yönü olan uzamsal bilgileri korumak için konumsal kodlamalara güvenir. ViT'ler, yamalar arasındaki ilişkileri öğrenerek görüntü sınıflandırma, nesne algılama ve segmentasyon gibi görevlerde son teknoloji performans elde edebilir.

CNN'lere Göre Avantajları

  1. Ölçeklenebilirlik: ViT'ler, CNN'lere kıyasla büyük veri kümeleriyle daha iyi ölçeklenir, bu da onları yüksek çözünürlüklü görüntüler veya çeşitli veri kümeleri gerektiren uygulamalar için uygun hale getirir.
  2. Küresel Bağlam: Kendi kendine dikkat mekanizması, ViT'lerin bir görüntü boyunca uzun menzilli bağımlılıkları modellemesini sağlarken, CNN'ler yerel alıcı alanlarla sınırlıdır.
  3. Esneklik: ViT'ler, ImageNet gibi önceden eğitilmiş modellerden yararlanarak minimum mimari değişikliklerle farklı görevler üzerinde ince ayar yapılabilir.

Transformatör sözlüğü girişinde transformatörlerin nasıl çalıştığı hakkında daha fazla bilgi edinin.

Görüş Transformatörleri Uygulamaları

Görüntü Sınıflandırma

ViT'ler, küresel görüntü özelliklerini yakalama yeteneklerini kullanarak görüntü sınıflandırma görevlerinde üstünlük sağlar. Google 's Vision Transformer gibi önceden eğitilmiş ViT'ler, ImageNet gibi ölçütlerde en gelişmiş doğruluğu elde etmiştir. Örneğin, ViT'ler sağlık alanında tıbbi görüntüleri sınıflandırmak ve hastalık teşhisine yardımcı olmak için uygulanmaktadır.

Ultralytics YOLO modelleri ile görüntü sınıflandırma görevlerini keşfedin.

Nesne Algılama

ViT'ler nesne algılama işlem hatlarında giderek daha fazla kullanılmakta ve geleneksel konvolüsyon tabanlı omurgaların yerini almaktadır. DETR (DEtection TRansformer) gibi modeller, ViT'lerin bölge önerme ağlarına dayanmadan nesneleri tespit etme ve konumlandırma konusundaki etkinliğini göstermektedir.

Nesne algılama çözümlerini keşfedin Ultralytics YOLO.

Görüntü Segmentasyonu

ViT'ler, öz dikkatten yararlanarak anlamsal ve örnek segmentasyonu için doğru ve verimli çözümler sunar. Uygulamalar arasında, yol işaretlerini, yayaları ve araçları tespit etmek için hassas piksel düzeyinde segmentasyonun çok önemli olduğu otonom sürüş yer alır.

Görüntü segmentasyonunda segmentasyon görevleri hakkında daha fazla bilgi edinin.

Gerçek Dünyadan Örnekler

  1. Sağlık hizmetleri: ViT'ler tümör tespiti ve organ segmentasyonu gibi görevler için tıbbi görüntülemede kullanılmaktadır. Yüksek çözünürlüklü görüntüleri analiz etme yetenekleri, erken teşhis ve tedavi planlamasına yardımcı olur. Örneğin, Ultralytics YOLO11'un tıbbi görüntüleme yetenekleri, gelişmiş hassasiyet için ViT tabanlı omurgalarla geliştirilebilir.

  2. Otonom Araçlar: ViT'ler otonom araçlardaki görüş sistemlerine güç vererek engellerin, şerit işaretlerinin ve trafik işaretlerinin gerçek zamanlı olarak algılanmasını sağlar. Küresel bağlam farkındalığı, güvenliği ve karar verme mekanizmasını geliştirir.

Vizyon yapay zeka çözümleriyle otonom sürüşte yapay zekanın daha fazla uygulamasını keşfedin.

Zorluklar ve Dikkat Edilmesi Gerekenler

ViT'ler önemli avantajlar sunarken, zorlukları da beraberinde getirmektedir:

  • Veri Gereksinimleri: ViT'ler en iyi performansı büyük veri kümeleriyle gösterir, çünkü kendi kendine dikkat mekanizmaları etkili bir şekilde genelleştirmek için kapsamlı verilere ihtiyaç duyar.
  • Hesaplama Maliyetleri: ViT'leri eğitmek, kendi kendine dikkat etmedeki ikinci dereceden karmaşıklıkları nedeniyle önemli hesaplama kaynakları gerektirir.

Bu sorunları ele almak için ViT'leri CNN'lerle birleştiren hibrit modeller gibi yaklaşımlar ve ViT'leri daha verimli hale getirmek için yama birleştirme gibi teknikler tanıtılmıştır.

İlgili Kavramlar

  • Transformatörler: ViT'ler, orijinal olarak NLP için tasarlanmış özel bir transformatör uygulamasıdır. Transformatörler hakkında daha fazla bilgi edinin.
  • Öz Dikkat: ViT'lerde görüntünün farklı kısımlarına odaklanmalarını sağlayan temel mekanizma. Daha derin bir anlayış için öz dikkati keşfedin.

ViT'ler, sektörler genelinde yenilikçi çözümler sunarak bilgisayarla görmenin sınırlarını zorlamaya devam ediyor. Geliştiriciler, Ultralytics HUB gibi araçlarla ViT'lerin gerçek dünya uygulamalarındaki potansiyelini keşfedebilir, dağıtımı basitleştirebilir ve yapay zeka çözümlerini ölçeklendirebilir.

Tümünü okuyun