Kapsül Ağları (CapsNets) ve bunların CNN'lerin sınırlamalarını nasıl çözdüğünü keşfedin. Dinamik yönlendirme, uzamsal hiyerarşiler ve CapsNets ile YOLO26'nın karşılaştırılması hakkında bilgi edinin.
Genellikle CapsNets olarak kısaltılan Kapsül Ağları, derin öğrenme alanında geleneksel sinir ağlarında bulunan belirli sınırlamaları aşmak için tasarlanmış gelişmiş bir mimariyi temsil eder. Geoffrey Hinton ve ekibi tarafından tanıtılan CapsNets, standart modellerden daha yakından insan beyninin biyolojik sinir organizasyonunu taklit etmeye çalışır. Standart Özellikleri algılamada üstün olan ancak alt örnekleme nedeniyle genellikle uzamsal ilişkileri kaybeden tipik bir evrişimli sinir ağı (CNN) aksine, Kapsül Ağı nöronları "kapsül" adı verilen gruplar halinde düzenler. Bu kapsüller, yalnızca bir nesnenin var olma olasılığını değil, aynı zamanda yön, boyut ve doku gibi belirli özelliklerini de kodlayarak görsel verilerdeki hiyerarşik uzamsal ilişkileri etkili bir şekilde korur .
CapsNets'in yenilikçiliğini anlamak için, standart bilgisayar görme modellerinin nasıl çalıştığına bakmak faydalı olacaktır. Geleneksel CNN, hesaplama yükünü azaltmak ve çeviri değişmezliği elde etmek için özellik çıkarma katmanlarını ve ardından havuzlama katmanlarını (özellikle maksimum havuzlama) kullanır. Bu, CNN'nin görüntüde nerede olursa olsun "kedi"yi tanıyabileceği anlamına gelir.
Ancak, bu süreç genellikle kesin konum verilerini atar ve bu da "Picasso sorunu"na yol açar: Bir CNN, gerekli tüm özellikler mevcut olduğu için, ağız alında olsa bile classify yüzü doğru bir şekilde classify . CapsNets, havuzlama katmanlarını kaldırarak ve bunları nesnelerin uzamsal hiyerarşilerini dikkate alan bir süreçle değiştirerek bu sorunu çözer.
Bu mimarinin temel yapı taşı, skaler değer yerine vektör çıkışı veren iç içe geçmiş bir nöron kümesi olan kapsüldür. Vektör matematiğinde, vektörün hem büyüklüğü hem de yönü vardır. CapsNet'te:
Alt katmanlardaki kapsüller (kenarlar gibi basit şekilleri algılayan) üst katmanlardaki kapsüllerin çıktısını tahmin eder (gözler veya lastikler gibi karmaşık nesneleri algılayan). Bu iletişim, "dinamik yönlendirme" veya "anlaşma yoluyla yönlendirme" adlı bir algoritma tarafından yönetilir. Alt düzey bir kapsülün tahmini, üst düzey bir kapsülün durumuyla uyumluysa, aralarındaki bağlantı güçlendirilir. Bu, ağın, CNN'lere dönüş ve ölçek hakkında öğretmek için genellikle gerekli olan büyük veri artırımı gerektirmeden farklı 3D bakış açılarından nesneleri tanımasını sağlar.
Her iki mimari de bilgisayar görme (CV) için temel önemde olsa da, görsel verileri işleme ve temsil etme yöntemleri bakımından farklılık gösterir:
CapsNets, YOLO26 gibi optimize edilmiş modellerden genellikle hesaplama açısından daha pahalı olsa da, özel alanlarda belirgin avantajlar sunar: *
Kapsül Ağları öncelikle bir sınıflandırma mimarisidir. Teorik olarak sağlamlık sunsalar da, modern endüstri uygulamaları genellikle gerçek zamanlı performans için yüksek hızlı CNN'leri veya Transformatörleri tercih eder. Ancak, MNIST gibi CapsNet'ler için kullanılan sınıflandırma kriterlerini anlamak yararlıdır.
Aşağıdaki örnek, modern bir modelin nasıl eğitileceğini göstermektedir.
YOLO modeli MNIST setinde kullanarak
ultralytics paket. Bu, Capsule Networks'ü doğrulamak için kullanılan birincil karşılaştırma görevine paraleldir.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
Kapsül Ağlarının arkasındaki ilkeler, AI güvenliği ve yorumlanabilirlik araştırmalarını etkilemeye devam ediyor. Kapsüller, parça-bütün ilişkilerini açıkça modelleyerek, derin sinir ağlarının "kara kutu" yapısına alternatif bir "cam kutu" sunarak kararları daha açıklanabilir hale getiriyor. Gelecekteki gelişmeler, kapsüllerin uzamsal sağlamlığını, YOLO11 gibi mimarilerin çıkarım hızıyla birleştirmeyi hedefliyor. YOLO11 veya daha yeni YOLO26 gibi mimarilerin çıkarım hızıyla birleştirerek 3D nesne algılama ve robotikte performansı artırmayı hedefliyor. Araştırmacılar ayrıca , anlaşma algoritmasının hesaplama maliyetini daha da azaltmak için EM Yönlendirmeli Matris Kapsülleri'ni araştırıyor.
Veri kümelerini yönetmek ve modelleri verimli bir şekilde eğitmek isteyen geliştiriciler için Ultralytics , verileri açıklamak, bulutta eğitmek ve CNN'lerin hızını karmaşık görme görevleri için gereken doğrulukla dengeleyen modelleri dağıtmak için birleşik bir ortam sağlar .