Vision Transformers (ViT) teknolojisinin gücünü keşfedin. Ultralytics ile öz dikkat ve yama tokenizasyonunun CNN'lerin ötesinde bilgisayar görüşünde nasıl devrim yarattığını öğrenin.
Vizyon Dönüştürücü (ViT), görsel görevleri çözmek için doğal dil işleme (NLP)için tasarlanmış öz dikkat mekanizmalarını uyarlayan bir derin öğrenme mimarisidir. Görüntüleri yerel piksel ızgaralarının hiyerarşisi aracılığıyla işleyen geleneksel evrişimli sinir ağlarından (CNN) farklı olarak, ViT bir görüntüyü ayrık yama dizisi olarak ele alır. Bu yaklaşım, "Bir Görüntü 16x16 Kelimeye Bedeldir" adlı çığır açan araştırma makalesi ile popüler hale geldi. Bu makale, saf dönüştürücü mimarilerin, konvolüsyon katmanlarına dayanmadan bilgisayar görme (CV) alanında en gelişmiş performansı sağlayabileceğini gösterdi. Küresel dikkati kullanarak, ViT'ler ilk katmandan itibaren tüm görüntüdeki uzun menzilli bağımlılıkları yakalayabilir. .
ViT'nin temel yeniliği, girdi verilerini yapılandırma şeklidir. Bir görüntüyü standart bir Transformer ile uyumlu hale getirmek için, model görsel bilgileri bir dizi vektöre ayırır ve bir dil modelinin bir cümleyi işleme şeklini taklit eder.
Her iki mimari de görsel verileri anlamayı amaçlasa da, çalışma felsefelerinde önemli farklılıklar vardır. CNN'ler, çeviri değişmezliği olarak bilinen güçlü bir "tümevarımsal önyargıya" sahiptir, yani doğası gereği yerel özelliklerin (kenarlar ve dokular gibi) konumlarından bağımsız olarak önemli olduğunu varsayarlar. Bu, CNN'leri daha küçük veri kümelerinde oldukça veri verimli ve etkili kılar.
Tersine, Vision Transformers görüntüye özgü önyargıları daha azdır. JFT-300M veya tam ImageNet gibi büyük miktarda eğitim verisini kullanarak uzamsal ilişkileri sıfırdan öğrenmeleri gerekir . ImageNet veri setleri gibi büyük miktarda eğitim verisi kullanarak uzamsal ilişkileri sıfırdan öğrenmeleri gerekir. Bu, eğitimi hesaplama açısından daha yoğun hale getirirken, ViT'lerin oldukça iyi ölçeklenmesine olanak tanır; yeterli veri ve hesaplama gücü ile, yerel konvolüsyonların kaçırabileceği karmaşık küresel yapıları yakalayarak CNN'lerden daha iyi performans gösterebilirler.
Küresel bağlamı anlama yeteneği, ViT'leri karmaşık ve riskli ortamlar için özellikle kullanışlı hale getirir.
Bu ultralytics Kütüphane, Transformer tabanlı mimarileri destekler, en önemlisi
RT-DETR Gerçek Zamanlı Algılama Dönüştürücü).
Amiral gemisi YOLO26 Hız ve doğruluk dengesi nedeniyle genellikle tercih edilen
RT-DETR , küresel bağlamı önceliklendiren senaryolar için güçlü bir alternatif RT-DETR .
Aşağıdaki Python örneği, önceden eğitilmiş bir Transformer tabanlı modeli yüklemeyi ve çıkarım yapmayı gösterir:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
ViT'lerin yüksek hesaplama maliyetini ele almak için araştırmalar hızla gelişmektedir. FlashAttention gibi teknikler bu modelleri daha hızlı ve daha fazla bellek verimli hale getirmektedir. Ayrıca, CNN'lerin verimliliğini Transformer'ların dikkat özelliği ile birleştiren hibrit mimariler yaygınlaşmaktadır. Bu gelişmiş iş akışlarını yönetmek isteyen ekipler için Ultralytics , verileri açıklamak, bulut üzerinden karmaşık modelleri eğitmek ve bunları çeşitli uç noktalara dağıtmak için birleşik bir ortam sunar.