Nesne alg ılama modellerinin mimarisinde, algılama kafası tipik olarak ağ boru hattının sonunda yer alan önemli bir bileşendir. Omurga (ilk özellikleri çıkaran) ve boyun (bu özellikleri toplayan ve iyileştiren) ardından, algılama kafası özellik haritaları olarak bilinen işlenmiş görüntü bilgilerini alır ve bunları nihai tahminlere dönüştürür. Esasen derin öğrenme modelinin karar verme birimi olarak görev yapar, hangi nesnelerin mevcut olduğunu, sınırlayıcı kutular aracılığıyla nerede bulunduklarını belirler ve her algılamaya bir güven puanı atar.
İşlevsellik ve Çalışma
Algılama başlığı, sinir ağının önceki katmanları tarafından üretilen zengin, soyut özellikleri işler. Bu özellikler, giriş görüntüsündeki potansiyel nesnelerle ilgili karmaşık desenleri, dokuları ve şekilleri kodlar. Başlık tipik olarak iki temel görevi yerine getirmek için genellikle evrişimli katmanlar da dahil olmak üzere kendi katman setini kullanır:
- Sınıflandırma: Tespit edilen her nesne için sınıf etiketinin tahmin edilmesi (örneğin, 'kişi', 'araba', 'köpek'). Bu genellikle her bir sınıf için olasılıkların çıktısını almak üzere Softmax veya benzer bir aktivasyon fonksiyonu ile sonuçlanan teknikler kullanılarak gerçekleştirilir.
- Lokalizasyon (Regresyon): Tespit edilen her bir nesneyi çevreleyen sınırlayıcı kutunun kesin koordinatlarının tahmin edilmesi. Bu bir regresyon problemi olarak ele alınır.
Gibi gelişmiş modeller Ultralytics YOLO bu görevleri hızlı bir şekilde yerine getirmek için tasarlanmış yüksek verimli algılama kafaları içerir ve birçok uygulama için çok önemli olan gerçek zamanlı çıkarımı mümkün kılar. Tahminler genellikle yinelenen tespitleri kaldırmak için Maksimum Olmayan Bastırma (NMS) gibi teknikler kullanılarak sonradan işlenir.
Temel Bileşenler ve Varyasyonlar
Algılama kafası tasarımları, belirli nesne algılama mimarisine bağlı olarak önemli ölçüde değişir. Temel varyasyonlar şunları içerir:
- Ankraj Tabanlı ve Ankrajsız:
- Faster R-CNN ve önceki YOLO sürümleri gibi modellerde yaygın olan çapa tabanlı dedektörler, özellik haritasının farklı konumlarında çeşitli boyutlarda ve en boy oranlarında önceden tanımlanmış bir çapa kutusu setine dayanır. Kafa, bu çapaları hassaslaştırmak için ofsetleri tahmin eder ve nesneyi bunların içinde sınıflandırır.
- Çapasız dedektörler, aşağıdaki gibi modellerde kullanılır YOLO11 ve FCOS, önceden tanımlanmış çapalar olmadan merkez noktaları ve boyutlar gibi nesne özelliklerini doğrudan tahmin eder. Bu yaklaşım, çapasız algılamanın faydalarında vurgulandığı gibi tasarımı basitleştirebilir ve potansiyel olarak genelleştirmeyi iyileştirebilir.
- Birleştirilmiş ve Ayrılmış Başlıklar: Bazı tasarımlar hem sınıflandırma hem de regresyon için tek bir katman kümesi (birleştirilmiş kafa) kullanırken, diğerleri her görev için ayrı dallar (ayrılmış kafa) kullanır ve bu da bazen doğruluğu artırabilir. Ultralytics kafa modülleri API belgelerinde daha fazla araştırılabilir.
Diğer Bileşenler ve Görevlerle Karşılaştırma
Algılama kafasını anlamak, onu bir bilgisayarla görme (CV) modelinin diğer bölümlerinden ve ilgili görevlerden ayırmayı gerektirir:
- Omurga: Omurga ağı (örn. ResNet, VGG), düşük seviyeli kenarlardan yüksek seviyeli nesne parçalarına kadar hiyerarşik özellikleri öğrenerek giriş görüntüsünden ilk özellik çıkarımından sorumludur.
- Boyun: Omurga ve baş arasında konumlandırılan boyun, çeşitli boyutlardaki nesneleri tespit etmek için daha zengin bir bağlam sağlamak üzere genellikle omurganın birden fazla ölçeğinden ( Özellik Piramidi Ağları gibi teknikler kullanarak) özellikleri bir araya getirir.
- Görüntü Sınıflandırma: Nesne algılamanın aksine, görüntü sınıflandırma, yerelleştirme olmadan tüm görüntüye tek bir etiket atar.
- Segmentasyon Görevleri: Anlamsal Segmentasyon görüntüdeki her bir pikseli sınıflandırırken, Örnek Segmentasyonu aynı nesne sınıfının farklı örneklerini piksel düzeyinde ayırt ederek daha da ileri gider. Nesne algılama, piksel maskeleri değil sınırlayıcı kutular sağlar.
Gerçek Dünya Uygulamaları
Algılama kafasının etkinliği, nesne algılama üzerine kurulu çok sayıda yapay zeka uygulamasının performansını doğrudan etkiler:
- Otonom Sürüş: Algılama kafaları, yayaları, diğer araçları, trafik işaretlerini ve engelleri gerçek zamanlı olarak tanımlamak ve bulmak için sürücüsüz araçlar için yapay zekada kritik öneme sahiptir ve güvenli navigasyon sağlar. Waymo gibi şirketler bu teknolojiye büyük ölçüde güveniyor.
- Güvenlik ve Gözetim: Güvenlik sistemlerinde, algılama kafaları yetkisiz kişileri, terk edilmiş nesneleri veya video akışlarındaki belirli olayları tanımlayarak otomatik izleme sağlar. Bu, Ultralytics Güvenlik Alarm Sistemi kılavuzu gibi uygulamaların temelini oluşturur.
- Perakende Analitiği: Envanter yönetimi, raf izleme ve müşteri davranış analizi için kullanılır.
- Tıbbi Görüntüleme: Taramalarda tümör veya kırık gibi anomalileri tespit ederek radyologlara yardımcı olmak, tıbbi görüntü analizine katkıda bulunmak.
- Üretim: Montaj hatlarındaki ürünlerdeki kusurları otomatik olarak tespit ederek üretimde kalite kontrolünü mümkün kılmak.
gibi modern nesne algılama modelleri YOLOv8 ve YOLO11gibi çerçeveler kullanılarak oluşturulur. PyTorch veya TensorFlowCOCO gibi kıyaslama veri kümelerinde hem hız hem de doğruluk için optimize edilmiş sofistike algılama kafalarına sahiptir. Bu modellerin eğitimi ve dağıtımı, Ultralytics HUB gibi platformlar tarafından kolaylaştırılır ve kullanıcıların özel ihtiyaçları için güçlü algılama yeteneklerinden yararlanmalarına olanak tanır. Performansı değerlendirmek genellikle YOLO Performans Ölçütleri kılavuzunda ayrıntılı olarak açıklanan mAP ve IoU gibi ölçütleri içerir.