Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Görüntü Dönüştürücü (ViT)

Vision Transformers (ViT) teknolojisinin gücünü keşfedin. Ultralytics ile öz dikkat ve yama tokenizasyonunun CNN'lerin ötesinde bilgisayar görüşünde nasıl devrim yarattığını öğrenin.

Vizyon Dönüştürücü (ViT), görsel görevleri çözmek için doğal dil işleme (NLP)için tasarlanmış öz dikkat mekanizmalarını uyarlayan bir derin öğrenme mimarisidir. Görüntüleri yerel piksel ızgaralarının hiyerarşisi aracılığıyla işleyen geleneksel evrişimli sinir ağlarından (CNN) farklı olarak, ViT bir görüntüyü ayrık yama dizisi olarak ele alır. Bu yaklaşım, "Bir Görüntü 16x16 Kelimeye Bedeldir" adlı çığır açan araştırma makalesi ile popüler hale geldi. Bu makale, saf dönüştürücü mimarilerin, konvolüsyon katmanlarına dayanmadan bilgisayar görme (CV) alanında en gelişmiş performansı sağlayabileceğini gösterdi. Küresel dikkati kullanarak, ViT'ler ilk katmandan itibaren tüm görüntüdeki uzun menzilli bağımlılıkları yakalayabilir. .

Görüntü Transformatörleri Nasıl Çalışır

ViT'nin temel yeniliği, girdi verilerini yapılandırma şeklidir. Bir görüntüyü standart bir Transformer ile uyumlu hale getirmek için, model görsel bilgileri bir dizi vektöre ayırır ve bir dil modelinin bir cümleyi işleme şeklini taklit eder.

  1. Yama Tokenizasyonu: Giriş görüntüsü, genellikle 16x16 piksel boyutunda sabit boyutlu karelerden oluşan bir ızgaraya bölünür. Her kare bir vektöre düzleştirilir ve etkili bir şekilde görsel bir token haline gelir.
  2. Doğrusal Projeksiyon: Bu düzleştirilmiş yamalar, yoğun gömüler oluşturmak için eğitilebilir bir doğrusal katmandan geçirilir. Bu adım, ham piksel değerlerini modelin işleyebileceği yüksek boyutlu bir uzaya eşler.
  3. Konumsal Kodlama: Mimari dizileri paralel olarak işlediğinden ve sıra veya alan hakkında doğal bir anlayışa sahip olmadığından, öğrenilebilir konumsalkodlamalar yama gömülerine eklenir. Bu, modelin her yamanın orijinal görüntüdeki yerini gösteren uzamsal bilgileri saklamasını sağlar.
  4. Öz-Dikkat Mekanizması: Dizi, Transformer kodlayıcısına girer ve burada öz-dikkat, her yamanın diğer tüm yamalarla aynı anda etkileşime girmesini sağlar. Bu, ağın genel bağlamı öğrenmesini ve sol üst köşedeki bir pikselin sağ alt köşedeki piksel ile nasıl ilişkili olduğunu anlamasını sağlar.
  5. Sınıflandırma Başlığı: Görüntü sınıflandırma gibi görevler için, dizinin başına genellikle özel bir "sınıf belirteci" eklenir. Bu belirtecin nihai çıktı durumu, görüntünün toplu temsili olarak işlev görür ve daha sonra çok katmanlı algılayıcı (MLP) gibi bir sınıflandırıcıya beslenir. .

Görsel Dönüştürücüler ve CNN'ler

Her iki mimari de görsel verileri anlamayı amaçlasa da, çalışma felsefelerinde önemli farklılıklar vardır. CNN'ler, çeviri değişmezliği olarak bilinen güçlü bir "tümevarımsal önyargıya" sahiptir, yani doğası gereği yerel özelliklerin (kenarlar ve dokular gibi) konumlarından bağımsız olarak önemli olduğunu varsayarlar. Bu, CNN'leri daha küçük veri kümelerinde oldukça veri verimli ve etkili kılar.

Tersine, Vision Transformers görüntüye özgü önyargıları daha azdır. JFT-300M veya tam ImageNet gibi büyük miktarda eğitim verisini kullanarak uzamsal ilişkileri sıfırdan öğrenmeleri gerekir . ImageNet veri setleri gibi büyük miktarda eğitim verisi kullanarak uzamsal ilişkileri sıfırdan öğrenmeleri gerekir. Bu, eğitimi hesaplama açısından daha yoğun hale getirirken, ViT'lerin oldukça iyi ölçeklenmesine olanak tanır; yeterli veri ve hesaplama gücü ile, yerel konvolüsyonların kaçırabileceği karmaşık küresel yapıları yakalayarak CNN'lerden daha iyi performans gösterebilirler.

Gerçek Dünya Uygulamaları

Küresel bağlamı anlama yeteneği, ViT'leri karmaşık ve riskli ortamlar için özellikle kullanışlı hale getirir.

  • Tıbbi Görüntü Analizi: Sağlık hizmetleri yapay zekasında, ViT'ler MRG veya histopatoloji slaytları gibi yüksek çözünürlüklü taramaları analiz etmek için kullanılır. Örneğin, tümör tespitinde, bir ViT, dokudaki ince dokusal anomalileri slayt genelindeki daha geniş yapısal değişikliklerle ilişkilendirebilir ve yerel işleme sırasında gözden kaçabilecek kötü huylu kalıpları tespit edebilir.
  • Uydu Görüntüleri ve Uzaktan Algılama: ViT'ler, nesneler arasındaki ilişkilerin geniş mesafeleri kapsadığı uydu görüntüsü analizinde mükemmeldir. Örneğin, bir ormansızlaşma alanını uzak bir ağaç kesme yoluna bağlamak, bir manzaranın "büyük resmini" anlamayı gerektirir; bu görevde, ViT'lerin küresel dikkati, standart CNN'lerin sınırlı alıcı alanından daha üstündür.

Ultralytics ile Transformatörleri Kullanma

Bu ultralytics Kütüphane, Transformer tabanlı mimarileri destekler, en önemlisi RT-DETR Gerçek Zamanlı Algılama Dönüştürücü). Amiral gemisi YOLO26 Hız ve doğruluk dengesi nedeniyle genellikle tercih edilen RT-DETR , küresel bağlamı önceliklendiren senaryolar için güçlü bir alternatif RT-DETR .

Aşağıdaki Python örneği, önceden eğitilmiş bir Transformer tabanlı modeli yüklemeyi ve çıkarım yapmayı gösterir:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Geleceğe Bakış

ViT'lerin yüksek hesaplama maliyetini ele almak için araştırmalar hızla gelişmektedir. FlashAttention gibi teknikler bu modelleri daha hızlı ve daha fazla bellek verimli hale getirmektedir. Ayrıca, CNN'lerin verimliliğini Transformer'ların dikkat özelliği ile birleştiren hibrit mimariler yaygınlaşmaktadır. Bu gelişmiş iş akışlarını yönetmek isteyen ekipler için Ultralytics , verileri açıklamak, bulut üzerinden karmaşık modelleri eğitmek ve bunları çeşitli uç noktalara dağıtmak için birleşik bir ortam sunar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın