Omurgadan kafalara kadar nesne algılama mimarilerini keşfedin. Ultralytics gerçek zamanlı bilgisayar görüşü için nasıl üstün hız ve doğruluk sağladığını öğrenin.
Nesne algılama mimarileri, görsel veriler içindeki öğeleri tanımlamak ve konumlandırmak için kullanılan sinir ağlarının yapısal planlarıdır. Daha geniş bir alan olan bilgisayar görme (CV) alanında, bu mimariler ham piksel verilerini anlamlı içgörülere dönüştürerek bir makinenin "görme" şeklini tanımlar. Bir görüntüyü basitçe etiketleyen temel sınıflandırma modellerinden farklı olarak, nesne algılama mimarisi, bulduğu her farklı nesne için bir sınırlayıcı kutu, bir sınıf etiketi ve bir güven puanı çıkarmak üzere tasarlanmıştır. Bu yapısal tasarım, modelin hızını, doğruluğunu ve hesaplama verimliliğini belirler ve bu da onu gerçek zamanlı çıkarım veya yüksek hassasiyetli analiz için bir model seçerken kritik bir faktör haline getirir.
Özel tasarımlar farklılık gösterse de, çoğu modern mimari üç temel bileşeni paylaşır: backbone, boyun ve kafa. backbone birincil özellik çıkarıcı görevi görür. Genellikle Convolutional Neural Network (CNN) gibi büyük bir veri seti üzerinde önceden eğitilmiş bir ImageNetgibi büyük bir veri seti üzerinde önceden eğitilmiş bir konvolüsyonel sinir ağıdır ve temel şekilleri, kenarları ve dokuları tanımlamaktan sorumludur. Omurga için popüler seçenekler arasında ResNet ve CSPDarknet
Boyun, backbone son çıktı backbone bağlar. Boynun rolü, modelin çeşitli boyutlardaki detect sağlamak backbone farklı aşamalarından gelen özellikleri karıştırmak ve birleştirmektir. Bu kavram, çok ölçekli özellik füzyonu olarak bilinir. Mimari genellikle burada Mimariler genellikle burada Özellik Piramidi Ağı (FPN) veya Yol Toplama Ağı (PANet) kullanarak tahmin katmanlarına aktarılan anlamsal bilgileri zenginleştirir. Son olarak, algılama başlığı bu birleştirilmiş özellikleri işleyerek her nesnenin belirli sınıfını ve koordinat konumunu tahmin eder.
Tarihsel olarak, mimariler iki ana kategoriye ayrılmıştır. R-CNN ailesi gibi iki aşamalı dedektörler, önce nesnelerin bulunabileceği ilgi alanlarını (RoI) önerir ve ardından ikinci aşamada classify alanları classify . Genel olarak doğru olsalar da, genellikle kenar cihazları için hesaplama açısından çok ağırdırlar.
Buna karşılık, tek aşamalı dedektörler algılamayı basit bir regresyon problemi olarak ele alır ve görüntü piksellerini tek geçişte doğrudan sınırlayıcı kutu koordinatlarına ve sınıf olasılıklarına eşler. YOLO (You Only Look Once) ailesi tarafından öncülüğü yapılan bu yaklaşım, gerçek zamanlı performans sağlayarak sektörde devrim yarattı. Modern gelişmeler, sadece üstün hız sunmakla kalmayıp, aynı zamanda uçtan uca, NMS mimarileri de benimseyen YOLO26 gibi modellerle doruğa ulaşmıştır. Non-Maximum Suppression (NMS) son işlemine olan ihtiyacı ortadan kaldırarak, bu yeni mimariler güvenlik açısından kritik sistemler için çok önemli olan gecikme değişkenliğini azaltır.
Mimari seçimi, tüm sektörlerdeki yapay zeka çözümlerinin başarısını doğrudan etkiler.
Algılama mimarilerini benzer bilgisayar görme görevlerinden ayırmak önemlidir:
Modern çerçeveler, bu mimarilerin karmaşıklıklarını soyutlayarak, geliştiricilerin
minimum kodla en son teknolojiye sahip tasarımlardan yararlanmalarını sağlar. Kullanarak ultralytics paketini kullanarak, önceden eğitilmiş bir
YOLO26 modeli oluşturun ve hemen çıkarım yapın. Veri kümelerini yönetmek ve bulutta özel mimariler eğitmek isteyen ekipler için
,
Ultralytics Platformu MLOps sürecinin tamamını basitleştirir.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# This uses the model's architecture to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()