Çapa tabanlı dedektörlerin hassas konumlandırma, ölçeğe uyarlanabilirlik ve gerçek dünya uygulamaları ile nesne algılamada nasıl devrim yarattığını keşfedin.
Çapa tabanlı algılayıcılar, nesne algılaması gerçekleştirmek için bilgisayarla görmede (CV) temel bir yaklaşımı temsil eder. Bu modeller, "çapa" veya "öncül" olarak bilinen, belirli boyutlara ve en-boy oranlarına sahip, önceden tanımlanmış bir dizi referans kutusuna dayanır. Bu çapalar, bir görüntü üzerinde başlangıç noktaları veya şablonlar olarak işlev görür ve modelin, özellikle ölçek ve şekil bakımından önemli ölçüde farklılık gösteren potansiyel nesnelerin konumunu ve sınıfını daha etkili bir şekilde tahmin etmesine yardımcı olur. Daha önceki birçok başarılı nesne algılama mimarisi bu yöntemi kullanmıştır.
Çapa tabanlı dedektörlerin arkasındaki temel fikir, giriş görüntüsü boyunca çeşitli konumlarda yoğun bir çapa kutusu ızgarası yerleştirmeyi içerir. Her bir bağlantı kutusu, önceden tanımlanmış bir ölçek ve en-boy oranına sahip potansiyel bir nesne adayını temsil eder. Eğitim süreci sırasında model her bir çapa için iki ana şey öğrenir: birincisi, çapanın ilgili bir nesne içerip içermediği (sınıflandırma) ve ikincisi, gerçek nesnenin sınırlayıcı kutusuna sıkıca uyması için çapanın konumunun ve boyutlarının nasıl ayarlanacağı (regresyon).
Büyük bir otopark görüntüsünde farklı araçları aradığınızı düşünün. Piksel piksel taramak yerine, önceden tanımlanmış dikdörtgen şablonlar (çapalar) kullanıyorsunuz: motosikletler için küçük dikey olanlar, arabalar için orta kare olanlar ve otobüsler için büyük geniş olanlar. Bu şablonları görüntü boyunca üst üste bindirirsiniz. Bir şablon bir araçla önemli ölçüde örtüştüğünde, model "Evet, bu bir araba" onayını almayı öğrenir ve arabanın sınırlarına mükemmel bir şekilde uyması için şablonu hafifçe kaydırır ve yeniden boyutlandırır. Çoğunlukla arka planı kaplayan çapalar bu şekilde sınıflandırılır. Bu yöntem, önceden tanımlanmış şekiller tarafından yönlendirilen olasılıkları sistematik olarak kapsar. Performans genellikle Birlik üzerinden Kesişim (IoU) ve Ortalama Hassasiyet (mAP) gibi metrikler kullanılarak ölçülür.
Genellikle Evrişimsel Sinir Ağları (CNN'ler) üzerine inşa edilen çapa tabanlı dedektörler birkaç önemli özellik sunar:
Nesne tespitinde önemli bir gelişme, çapasız dedektörlerin yükselişi olmuştur. Çapa tabanlı modellerin (örn. YOLOv4) aksine, çapasız yöntemler, önceden tanımlanmış çapa şekillerine dayanmadan, genellikle kilit noktaları (köşeler veya merkezler gibi) belirleyerek veya bir noktadan nesne sınırlarına olan mesafeleri tahmin ederek nesne konumlarını ve boyutlarını doğrudan tahmin eder.
Ana ayrımlar şunlardır:
Gibi modern modeller Ultralytics YOLO11 verimlilik ve basitlik avantajlarından yararlanarak çapasız yaklaşımları kullanır. YOLO11'de çapasız tespitin avantajları hakkında daha fazla bilgi edinebilirsiniz.
Ankrajsız yöntemlere yönelik eğilime rağmen, ankraj tabanlı dedektörler çok sayıda uygulamada başarıyla kullanılmaktadır:
Çapasız yöntemler popülerlik kazanırken, çapa tabanlı dedektörleri anlamak, nesne algılamanın evrimini ve belirli bağlamlarda veya eski sistemlerde devam eden ilgilerini takdir etmek için çok önemlidir. Gibi araçlar PyTorch ve TensorFlowUltralytics HUB gibi platformlar modern dedektörlerin eğitimini ve dağıtımını kolaylaştırırken, hem çapa tabanlı hem de çapasız model geliştirmeyi destekler.