Transformer mimarisini ve öz dikkat mekanizmasını keşfedin. RT-DETR Ultralytics gibi AI modellerine üstün doğruluk sağlamak için nasıl güç verdiklerini öğrenin.
Transformer, doğal dil veya görsel özellikler gibi sıralı giriş verilerini işlemek için kendi kendine dikkat mekanizmasına dayanan bir derin öğrenme mimarisidir. İlk olarak Google tarafından dönüm noktası niteliğindeki makalede Attention Is All You Needile tanıtılan Transformer, önceki Tekrarlayan Sinir Ağları'nın (RNN) sıralı işleme sınırlamalarını ortadan kaldırarak yapay zeka (AI) alanında devrim yarattı. Bunun yerine, Transformer'lar tüm veri dizilerini aynı anda analiz ederek, büyük ölçekli paralelleştirmeye ve GPU gibi modern donanımlarda önemli ölçüde daha hızlı eğitim sürelerine olanak tanır. Transformer'ın temel mantığı,
Transformer'ın temel yeniliği, kendi kendine dikkat mekanizmasıdır. Bu, modelin giriş verilerinin farklı bölümlerinin birbirlerine göre önemini tartmasını sağlar. Örneğin, bir cümlede, model, çevreleyen bağlama dayanarak "banka" kelimesinin "nehir"den çok "para" ile daha yakından ilişkili olduğunu öğrenebilir .
Bu mimari genellikle iki ana bileşenden oluşur:
Bilgisayar görme (CV) alanında, modeller genellikle Vision Transformer (ViT) adı verilen bir varyasyonu kullanır. Metin tokenlerini işlemek yerine, görüntü sabit boyutlu yamalar (örneğin, 16x16 piksel) halinde bölünür. Metin belirteçlerini işlemek yerine görüntü sabit boyutlu yamalar halinde bölünür (örneğin, 16x16 piksel). Bu yamalar düzleştirilir ve bir dizi olarak ele alınır, böylece model "küresel bağlamı" (görüntünün uzak kısımları arasındaki ilişkileri anlama) standart Convolutional Neural Network (CNN) modelinden daha etkili bir şekilde yakalayabilir.
Transformer mimarisini ilgili terimlerden ayırmak önemlidir:
Transformatörlerin çok yönlülüğü, çeşitli endüstrilerde kullanılmalarına yol açmıştır:
CNN'ler geleneksel olarak nesne algılamada hakimiyet kurarken, Real-Time Detection Transformer (RT-DETR) gibi Transformer tabanlı modeller güçlü alternatifler olarak ortaya çıkmıştır. RT-DETR , CNN omurgalarının hızını Transformer kod çözme başlıklarının hassasiyetiyle RT-DETR .
Ancak, saf Transformer modelleri hesaplama açısından ağır olabilir. Birçok uç uygulama için, verimli dikkat mekanizmalarını hızlı evrişimli işleme ile entegre eden YOLO26gibi yüksek düzeyde optimize edilmiş hibrit modeller, hız ve doğruluk arasında üstün bir denge sunar. Bu modellerin eğitimini ve dağıtımını, veri kümesi açıklamasından model dışa aktarmaya kadar iş akışını kolaylaştıran Ultralytics aracılığıyla kolayca yönetebilirsiniz. .
Aşağıdaki örnek, Transformer tabanlı bir model kullanarak
ultralytics paket. Bu kod, önceden eğitilmiş bir RT-DETR yükler ve bir görüntüdeki nesneleri algılar.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
Matematiksel temeller hakkında daha fazla bilgi için, Transformer katmanları hakkındakiPyTorch teknik ayrıntılar sağlarken, IBM'in Transformers kılavuzu üst düzey bir iş perspektifi sunmaktadır.