Bilgisayarla görmede Görme Dönüştürücülerinin (ViT'ler) gücünü keşfedin. Küresel görüntü bağlamını yakalayarak CNN'lerden nasıl daha iyi performans gösterdiklerini öğrenin.
Görüntü Dönüştürücüsü (ViT), aslen Doğal Dil İşleme (NLP) için tasarlanmış olan Dönüştürücü modellerinden uyarlanmış bir tür sinir ağı mimarisidir. Google araştırmacıları tarafından "Bir Görüntü 16x16 Kelimeye Bedeldir" adlı makalede tanıtılan ViT'ler, görüntü işlemeyi bir dizi modelleme görevi olarak ele alarak Transformer'ın kendi kendine dikkat mekanizmasını doğrudan görüntü yamaları dizilerine uygular. Bu yaklaşım, bilgisayarla görmede (CV) Evrişimsel Sinir Ağlarının (CNN 'ler) hakimiyetinden önemli bir değişime işaret etmektedir.
Konvolüsyonel filtreler kullanarak görüntüleri piksel piksel işlemek yerine, bir ViT önce bir giriş görüntüsünü sabit boyutlu, örtüşmeyen yamalara böler. Bu yamalar daha sonra vektörler halinde düzleştirilir, doğrusal olarak gömülür ve uzamsal bilgileri korumak için konumsal gömmelerle zenginleştirilir (NLP'de kelime konumlarının kodlanmasına benzer şekilde). Bu vektör dizisi daha sonra, farklı yamaların birbirlerine göre önemini tartmak için çok kafalı öz dikkat katmanlarını kullanan standart bir Transformer kodlayıcıya beslenir. Transformer kodlayıcının nihai çıktısı, görüntü sınıflandırma gibi görevler için tipik olarak basit bir sınıflandırma kafasına (Çok Katmanlı Algılayıcı gibi) aktarılır. Bu mimari, ViT'lerin bir görüntüdeki uzun menzilli bağımlılıkları ve küresel bağlamı etkili bir şekilde modellemesine olanak tanır.
Görme Dönüştürücüleri, ölçeklenebilirlikleri ve etkileyici performansları nedeniyle, özellikle ImageNet gibi veri kümeleri ve hatta daha büyük tescilli veri kümeleri üzerinde büyük ölçekli ön eğitim ile modern derin öğrenmede oldukça önemli hale gelmiştir. Küresel bağlamı modelleme yetenekleri, onları temel sınıflandırmanın ötesinde çok çeşitli CV görevleri için uygun hale getirir:
ViT'ler Ultralytics HUB gibi platformlara ve Hugging Face Transformers gibi kütüphanelere giderek daha fazla entegre edilmekte ve aşağıdaki gibi çerçeveler kullanılarak araştırma ve dağıtım için erişilebilir hale getirilmektedir PyTorch ve TensorFlow. Ayrıca, aşağıdaki gibi araçlar kullanılarak NVIDIA Jetson veya Google'ın Edge TPU 'su gibi cihazlarda Edge AI dağıtımı için optimize edilebilirler TensorRT.
Hem ViT'ler hem de CNN'ler bilgisayarla görmede temel mimariler olsa da (bkz . Görme Modellerinin Tarihçesi), yaklaşımları açısından önemli farklılıklar gösterirler:
ViT ve CNN arasındaki seçim genellikle belirli göreve, mevcut veri kümelerine ve hesaplama kaynaklarına bağlıdır. ViT'ler genellikle büyük miktarda eğitim verisi mevcut olduğunda ve küresel bağlam çok önemli olduğunda mükemmeldir. CNN'ler, omurga olarak kullanılanlar gibi Ultralytics YOLO ailesi (örn, YOLOv8, YOLOv10, YOLO11), özellikle kısıtlı cihazlarda gerçek zamanlı nesne tespiti için oldukça etkili ve verimli olmaya devam etmektedir. Konvolüsyonel özellikleri dönüştürücü katmanlarla ( RT-DETR'de olduğu gibi) birleştiren hibrit mimariler de her iki yaklaşımın güçlü yönlerinden yararlanmaya çalışan umut verici bir yönü temsil etmektedir. İster ViT ister CNN tabanlı olsun, önceden eğitilmiş modellere ince ayar yapmak, transfer öğrenme gibi tekniklerin kullanıldığı yaygın bir uygulamadır.