Maske R-CNN Açıklaması: Kılavuz, Kullanımlar ve YOLO

Yapay zeka benimsenmesi arttıkça, depolardaki robotlar, yoğun caddelerde güvenli bir şekilde hareket eden otonom araçlar, mahsulleri kontrol eden dronlar ve fabrikalarda ürünleri denetleyen yapay zeka sistemleri gibi yenilikler daha yaygın hale geliyor. Bu yenilikleri yönlendiren temel bir teknoloji, makinelerin görsel verileri anlamasını ve yorumlamasını sağlayan bir yapay zeka dalı olan bilgisayarlı görü'dür.

Örneğin, nesne tespiti, görüntüdeki nesneleri sınırlayıcı kutular kullanarak tanımlamaya ve konumlandırmaya yardımcı olan bir bilgisayarlı görü görevidir. Sınırlayıcı kutular faydalı bilgiler sunsa da, yalnızca bir nesnenin konumunun yaklaşık bir tahminini sağlar ve tam şeklini veya sınırlarını yakalayamaz. Bu, onları hassas tanımlama gerektiren uygulamalarda daha az etkili hale getirir.

Bu sorunu çözmek için araştırmacılar, nesnelerin tam hatlarını yakalayan, daha doğru tespit ve analiz için piksel düzeyinde ayrıntılar sağlayan segmentasyon modelleri geliştirdiler.

Mask R-CNN bu modellerden biridir. 2017 yılında Facebook AI Research (FAIR) tarafından tanıtılan bu model, R-CNN, Fast R-CNN ve Faster R-CNN gibi daha önceki modellerin üzerine inşa edilmiştir. Bilgisayarla görme tarihinde önemli bir kilometre taşı olan Mask R-CNN, aşağıdakiler gibi daha gelişmiş modellerin önünü açmıştır Ultralytics YOLO11.

Bu makalede, Mask R-CNN'nin ne olduğunu, nasıl çalıştığını, uygulamalarını ve YOLO11'e kadar hangi iyileştirmelerin yapıldığını inceleyeceğiz.

Mask R-CNN'ye genel bir bakış

Mask Region-based Convolutional Neural Network'ün kısaltması olan Mask R-CNN, nesne tespiti ve örnek segmentasyonu gibi bilgisayarlı görü görevleri için tasarlanmış bir derin öğrenme modelidir.

Örnek segmentasyonu, bir görüntüdeki nesneleri yalnızca tanımlamakla kalmayıp aynı zamanda her birinin ana hatlarını doğru bir şekilde çizerek geleneksel nesne tespitinin ötesine geçer. Algılanan her nesneye benzersiz bir etiket atar ve tam şeklini piksel düzeyinde yakalar. Bu ayrıntılı yaklaşım, çakışan nesneler arasında net bir şekilde ayrım yapmayı ve karmaşık şekilleri doğru bir şekilde işlemeyi mümkün kılar.

Mask R-CNN, nesneleri tespit eden ve etiketleyen ancak tam şekillerini tanımlamayan Faster R-CNN üzerine kurulmuştur. Mask R-CNN, her bir nesneyi oluşturan tam pikselleri tanımlayarak bunu geliştirir ve çok daha ayrıntılı ve doğru görüntü analizine olanak tanır.

Şekil 1. Nesne tespiti ve örnek segmentasyonunun karşılaştırılması.

‍

Mask R-CNN'nin mimarisine ve nasıl çalıştığına bir bakış

Mask R-CNN, nesneleri doğru bir şekilde detect etmek ve segment ayırmak için adım adım bir yaklaşım benimser. Derin bir sinir ağı (verilerden öğrenen çok katmanlı bir model) kullanarak temel özellikleri çıkararak başlar, ardından bir bölge öneri ağı (olası nesne bölgelerini öneren bir bileşen) ile potansiyel nesne alanlarını belirler ve son olarak her nesnenin tam şeklini yakalayan ayrıntılı segmentasyon maskeleri (nesnelerin kesin ana hatları) oluşturarak bu alanları hassaslaştırır.

Şimdi, Mask R-CNN'in nasıl çalıştığına dair daha iyi bir fikir edinmek için her adımı inceleyeceğiz.

Şekil 2. Maske R-CNN mimarisine genel bir bakış (Kaynak: researchgate.net).

‍

Özellik çıkarımı ile başlanıyor

Mask R-CNN'nin mimarisindeki ilk adım, modelin içinde ne olduğunu anlayabilmesi için görüntüyü temel parçalarına ayırmaktır. Bunu bir fotoğrafa baktığınızda doğal olarak şekiller, renkler ve kenarlar gibi ayrıntıları fark etmeniz gibi düşünün. Model,backbone" (genellikle ResNet-50 veya ResNet-101) adı verilen derin bir sinir ağı kullanarak benzer bir şey yapar; bu ağ, görüntüyü taramak ve önemli ayrıntıları yakalamak için gözleri gibi davranır.

Görüntülerdeki nesneler çok küçük veya çok büyük olabileceğinden, Mask R-CNN bir Özellik Piramidi Ağı kullanır. Bu, modelin hem ince ayrıntıları hem de büyük resmi görmesini sağlayan farklı büyüteçlere sahip olmak gibidir ve her boyuttaki nesnenin fark edilmesini sağlar.

Bu önemli özellikler çıkarıldıktan sonra, model daha sonra görüntüdeki potansiyel nesneleri bulmaya geçer ve daha fazla analiz için zemin hazırlar.

Görüntüde nesnelerle potansiyel alanlar önerme

Görüntü temel özellikler için işlendikten sonra, Bölge Öneri Ağı devreye girer. Modelin bu kısmı görüntüye bakar ve nesneler içerme olasılığı yüksek olan alanlar önerir.

Bunu, çıpa adı verilen birden çok olası nesne konumu oluşturarak yapar. Ağ daha sonra bu çıpaları değerlendirir ve daha fazla analiz için en umut verici olanları seçer. Bu şekilde, model görüntüdeki her bir noktayı kontrol etmek yerine, yalnızca ilginç olma olasılığı en yüksek olan alanlara odaklanır.

‍

Çıkarılan özellikleri geliştirme

Temel alanlar belirlendikten sonra, bir sonraki adım bu bölgelerden çıkarılan ayrıntıları iyileştirmektir. Önceki modeller, her alandan özellikleri almak için ROI Havuzu (İlgi Alanı Havuzu) adı verilen bir yöntem kullanıyordu, ancak bu teknik bazen bölgeleri yeniden boyutlandırırken hafif yanlış hizalamalara yol açarak, özellikle daha küçük veya örtüşen nesneler için daha az etkili hale getiriyordu.

Mask R-CNN, ROI Hizalama (İlgi Alanı Hizalama) olarak adlandırılan bir teknik kullanarak bunu geliştirir. ROI Hizalama, ROI Havuzu gibi koordinatları yuvarlamak yerine, piksel değerlerini daha hassas bir şekilde tahmin etmek için çift doğrusal enterpolasyon kullanır. Çift doğrusal enterpolasyon, daha yumuşak geçişler yaratan dört en yakın komşusunun değerlerini ortalayarak yeni bir piksel değeri hesaplayan bir yöntemdir. Bu, özelliklerin orijinal görüntüyle düzgün şekilde hizalanmasını sağlayarak daha doğru nesne tespiti ve segmentasyonu sağlar.

Örneğin, bir futbol maçında, birbirine yakın duran iki oyuncu, sınırlayıcı kutuları örtüştüğü için birbirleriyle karıştırılabilir. ROI Hizalama, şekillerini farklı tutarak onları ayırmaya yardımcı olur.

Şekil 4. Mask R-CNN, ROI Hizalama kullanır.

‍

Nesneleri sınıflandırma ve maskelerini tahmin etme

ROI Align görüntüyü işledikten sonra, bir sonraki adım nesneleri classify ve konumlarına ince ayar yapmaktır. Model, çıkarılan her bölgeye bakar ve hangi nesneyi içerdiğine karar verir. Farklı kategorilere bir olasılık puanı atar ve en iyi eşleşmeyi seçer.

Aynı zamanda, sınırlayıcı kutuları nesnelere daha iyi uyacak şekilde ayarlar. İlk kutular ideal olarak yerleştirilmemiş olabilir, bu nedenle bu, her kutunun algılanan nesneyi sıkıca çevrelediğinden emin olarak doğruluğu artırmaya yardımcı olur.

Son olarak, Mask R-CNN fazladan bir adım atar: paralel olarak her nesne için ayrıntılı bir segmentasyon maskesi oluşturur.

Mask R-CNN ve gerçek zamanlı uygulamaları

Bu model ortaya çıktığında, yapay zeka topluluğu tarafından büyük bir heyecanla karşılandı ve kısa süre içinde çeşitli uygulamalarda kullanılmaya başlandı. Nesneleri gerçek zamanlı olarak detect etme ve segment ayırma yeteneği, onu farklı sektörlerde oyunun kurallarını değiştiren bir unsur haline getirdi.

Örneğin, nesli tükenmekte olan hayvanları vahşi doğada takip etmek zorlu bir iştir. Birçok tür sık ormanlarda hareket eder ve bu da korumacıların onları track etmesini zorlaştırır. Geleneksel yöntemlerde kamera tuzakları, insansız hava araçları ve uydu görüntüleri kullanılır, ancak tüm bu verileri elle sıralamak zaman alıcıdır. Yanlış tanımlamalar ve gözden kaçan gözlemler koruma çabalarını yavaşlatabilir.

Mask R-CNN, kaplan çizgileri, zürafa benekleri veya bir filin kulaklarının şekli gibi benzersiz özellikleri tanıyarak, görüntü ve videolardaki hayvanları daha yüksek doğrulukla detect edebilir ve segment ayırabilir. Hayvanlar ağaçlar tarafından kısmen gizlendiğinde veya birbirine yakın durduğunda bile, model onları ayırabilir ve her birini ayrı ayrı tanımlayabilir, böylece yaban hayatı izlemeyi daha hızlı ve daha güvenilir hale getirir.

Şekil 5. Mask R-CNN kullanarak hayvanları tespit etme ve bölümlere ayırma.

‍

Mask R-CNN'in Sınırlamaları

Nesne tespiti ve segmentasyonundaki tarihi önemine rağmen, Mask R-CNN'in bazı önemli dezavantajları da bulunmaktadır. İşte Mask R-CNN ile ilgili bazı zorluklar:

Yüksek hesaplama ihtiyacı: Güçlü GPU'lara ihtiyaç duyar, bu da büyük miktarda veriyi işlerken çalıştırmayı maliyetli ve yavaş hale getirebilir.
Daha yavaş işlem hızı: Çok aşamalı süreci, YOLO gibi daha hızlı gerçek zamanlı modellere kıyasla daha yavaş olmasını sağlar ve bu da zamana duyarlı görevler için ideal olmayabilir.
Yüksek kaliteli veriye bağımlılık: Model, en iyi performansı net, iyi etiketlenmiş görüntülerle gösterir. Bulanık veya kötü aydınlatılmış görüntüler doğruluğunu önemli ölçüde azaltabilir.
‍
Karmaşık uygulama: Çok aşamalı mimari, özellikle büyük veri kümeleri veya sınırlı kaynaklarla uğraşırken kurulumu ve optimize etmeyi zorlaştırabilir.

Maske R-CNN'den Ultralytics YOLO11

Maske R-CNN segmentasyon görevleri için harikaydı, ancak birçok endüstri hız ve gerçek zamanlı performansa öncelik verirken bilgisayarla görmeyi benimsemek istiyordu. Bu gereksinim, araştırmacıları nesneleri tek bir geçişte detect ve verimliliği büyük ölçüde artıran tek aşamalı modeller geliştirmeye yöneltti.

Mask R-CNN'nin çok adımlı sürecinin aksine, YOLO (You Only Look Once) gibi tek aşamalı bilgisayarla görme modelleri gerçek zamanlı bilgisayarla görme görevlerine odaklanır. Algılama ve segmentasyonu ayrı ayrı ele almak yerine, YOLO modelleri bir görüntüyü tek seferde analiz edebilir. Bu da hızlı karar vermenin çok önemli olduğu otonom sürüş, sağlık hizmetleri, üretim ve robotik gibi uygulamalar için idealdir.

Özellikle YOLO11 hem hızlı hem de doğru olmasıyla bunu bir adım öteye taşımaktadır. YOLOv8m 'ye göre %22 daha az parametre kullanmasına rağmen COCO veri setinde daha yüksek ortalama hassasiyetmAP) elde ediyor, yani nesneleri daha hassas bir şekilde tespit ediyor. Geliştirilmiş işlem hızı, her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için iyi bir seçim olmasını sağlar.

Şekil 6. YOLO11'in diğer modellere kıyasla performansı.

‍

Önemli çıkarımlar

Bilgisayarlı görünün tarihine baktığımızda, Mask R-CNN nesne tespiti ve segmentasyonunda büyük bir atılım olarak kabul edilir. Ayrıntılı çok adımlı süreci sayesinde karmaşık ortamlarda bile çok hassas sonuçlar verir.

Ancak bu aynı süreç, YOLO gibi gerçek zamanlı modellere kıyasla daha yavaş olmasına neden olur. Hız ve verimlilik ihtiyacı arttıkça, birçok uygulama artık hızlı ve doğru nesne algılama sunan Ultralytics YOLO11 gibi tek aşamalı modeller kullanmaktadır. Mask R-CNN, bilgisayarla görmenin gelişimini anlamak açısından önemli olsa da, gerçek zamanlı çözümlere yönelik eğilim, daha hızlı ve daha verimli bilgisayarla görme çözümlerine yönelik artan talebi vurgulamaktadır.

Büyüyen topluluğumuza katılın! AI hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Kendi bilgisayarlı görü projelerinize başlamaya hazır mısınız? Lisanslama seçeneklerimize göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zeka ve sağlık hizmetlerinde Vision AI'yı keşfedin!

Mask R-CNN nedir ve nasıl çalışır?

Mask R-CNN'ye genel bir bakış