Mask R-CNN'nin farklı sektörlerdeki çeşitli uygulamalar için görüntü ve videolardaki nesneleri hassas bir şekilde segmentlere ayırmak için nasıl kullanılabileceğini öğrenin.
Depolardaki robotlar, işlek caddelerde güvenle ilerleyen sürücüsüz arabalar, ekinleri kontrol eden dronlar ve fabrikalardaki ürünleri denetleyen yapay zeka sistemleri gibi yenilikler, yapay zekanın benimsenmesi arttıkça daha yaygın hale geliyor. Bu yeniliklere yön veren kilit teknolojilerden biri, makinelerin görsel verileri anlamasını ve yorumlamasını sağlayan bir YZ dalı olan bilgisayarla görmedir.
Örneğin, nesne algılama, sınırlayıcı kutular kullanarak görüntülerdeki nesneleri tanımlamaya ve bulmaya yardımcı olan bir bilgisayarla görme görevidir. Sınırlayıcı kutular yararlı bilgiler sunsa da, bir nesnenin konumu hakkında yalnızca kabaca bir tahmin sağlarlar ve tam şeklini veya sınırlarını yakalayamazlar. Bu da onları kesin tanımlama gerektiren uygulamalarda daha az etkili hale getirir.
Bu sorunu çözmek için araştırmacılar, nesnelerin tam konturlarını yakalayan ve daha doğru algılama ve analiz için piksel düzeyinde ayrıntılar sağlayan segmentasyon modelleri geliştirdiler.
Mask R-CNN bu modellerden biridir. 2017 yılında Facebook AI Research (FAIR) tarafından tanıtılan bu model, R-CNN, Fast R-CNN ve Faster R-CNN gibi daha önceki modellerin üzerine inşa edilmiştir. Bilgisayarla görme tarihinde önemli bir kilometre taşı olan Mask R-CNN, aşağıdakiler gibi daha gelişmiş modellerin önünü açmıştır Ultralytics YOLO11.
Bu makalede, Mask R-CNN'nin ne olduğunu, nasıl çalıştığını, uygulamalarını ve YOLO11'e kadar hangi iyileştirmelerin yapıldığını inceleyeceğiz.
Maske Bölgesi Tabanlı Evrişimsel Sinir Ağı anlamına gelen Mask R-CNN, nesne algılama ve örnek segmentasyonu gibi bilgisayarla görme görevleri için tasarlanmış bir derin öğrenme modelidir.
Örnek segmentasyonu, yalnızca bir görüntüdeki nesneleri tanımlamakla kalmaz, aynı zamanda her birinin ana hatlarını doğru bir şekilde belirleyerek geleneksel nesne algılamanın ötesine geçer. Algılanan her nesneye benzersiz bir etiket atar ve tam şeklini piksel düzeyinde yakalar. Bu ayrıntılı yaklaşım, üst üste binen nesneleri net bir şekilde ayırt etmeyi ve karmaşık şekilleri doğru bir şekilde ele almayı mümkün kılar.
Mask R-CNN, nesneleri tespit eden ve etiketleyen ancak tam şekillerini tanımlamayan Faster R-CNN üzerine inşa edilmiştir. Mask R-CNN, her bir nesneyi oluşturan pikselleri tam olarak tanımlayarak bunu geliştirir ve çok daha ayrıntılı ve doğru görüntü analizine olanak tanır.
Mask R-CNN, nesneleri doğru bir şekilde tespit etmek ve segmentlere ayırmak için adım adım bir yaklaşım benimser. Derin bir sinir ağı (verilerden öğrenen çok katmanlı bir model) kullanarak temel özellikleri çıkararak başlar, ardından bir bölge öneri ağı (olası nesne bölgelerini öneren bir bileşen) ile potansiyel nesne alanlarını belirler ve son olarak her nesnenin tam şeklini yakalayan ayrıntılı segmentasyon maskeleri (nesnelerin kesin ana hatları) oluşturarak bu alanları hassaslaştırır.
Daha sonra, Mask R-CNN'nin nasıl çalıştığı hakkında daha iyi bir fikir edinmek için her adımı inceleyeceğiz.
Mask R-CNN'nin mimarisindeki ilk adım, modelin içinde ne olduğunu anlayabilmesi için görüntüyü temel parçalarına ayırmaktır. Bunu bir fotoğrafa baktığınızda doğal olarak şekiller, renkler ve kenarlar gibi ayrıntıları fark etmeniz gibi düşünün. Model, "omurga" (genellikle ResNet-50 veya ResNet-101) adı verilen derin bir sinir ağı kullanarak benzer bir şey yapar; bu ağ, görüntüyü taramak ve önemli ayrıntıları yakalamak için gözleri gibi davranır.
Görüntülerdeki nesneler çok küçük veya çok büyük olabileceğinden, Mask R-CNN bir Özellik Piramidi Ağı kullanır. Bu, modelin hem ince ayrıntıları hem de büyük resmi görmesini sağlayan farklı büyüteçlere sahip olmak gibidir ve her boyuttaki nesnenin fark edilmesini sağlar.
Bu önemli özellikler çıkarıldıktan sonra, model görüntüdeki potansiyel nesnelerin yerini belirlemeye devam ederek daha ileri analizler için zemin hazırlar.
Görüntü temel özellikler için işlendikten sonra Bölge Öneri Ağı devreye girer. Modelin bu kısmı görüntüye bakar ve nesne içermesi muhtemel alanları önerir.
Bunu, çapa adı verilen birden fazla olası nesne konumu oluşturarak yapar. Ağ daha sonra bu çapaları değerlendirir ve daha fazla analiz için en umut verici olanları seçer. Bu şekilde model, görüntüdeki her bir noktayı kontrol etmek yerine yalnızca ilginç olma olasılığı en yüksek alanlara odaklanır.
Kilit alanlar belirlendikten sonra, bir sonraki adım bu bölgelerden çıkarılan ayrıntıları hassaslaştırmaktır. Daha önceki modellerde her bir alandan özellikleri almak için ROI Havuzlama (İlgi Bölgesi Havuzlama) adı verilen bir yöntem kullanılıyordu, ancak bu teknik bazen bölgeleri yeniden boyutlandırırken hafif yanlış hizalamalara yol açarak özellikle daha küçük veya üst üste binen nesneler için daha az etkili hale geliyordu.
Mask R-CNN, ROI Align (Region of Interest Align) olarak adlandırılan bir teknik kullanarak bunu geliştirir. ROI Align, ROI Pooling'in yaptığı gibi koordinatları yuvarlamak yerine piksel değerlerini daha hassas bir şekilde tahmin etmek için bilineer enterpolasyon kullanır. Bilineer enterpolasyon, en yakın dört komşusunun değerlerinin ortalamasını alarak yeni bir piksel değeri hesaplayan ve daha yumuşak geçişler yaratan bir yöntemdir. Bu, özelliklerin orijinal görüntü ile düzgün bir şekilde hizalanmasını sağlayarak daha doğru nesne algılama ve segmentasyon sağlar.
Örneğin, bir futbol maçında birbirine yakın duran iki oyuncu, sınırlayıcı kutuları çakıştığı için birbiriyle karıştırılabilir. ROI Align, şekillerini farklı tutarak onları ayırmaya yardımcı olur.
ROI Align görüntüyü işledikten sonra, bir sonraki adım nesneleri sınıflandırmak ve konumlarına ince ayar yapmaktır. Model, çıkarılan her bölgeye bakar ve hangi nesneyi içerdiğine karar verir. Farklı kategorilere bir olasılık puanı atar ve en iyi eşleşmeyi seçer.
Aynı zamanda, nesnelere daha iyi uyması için sınırlayıcı kutuları ayarlar. İlk kutular ideal şekilde yerleştirilmemiş olabilir, bu nedenle her kutunun algılanan nesneyi sıkıca çevrelediğinden emin olarak doğruluğu artırmaya yardımcı olur.
Son olarak, Mask R-CNN ekstra bir adım atar: paralel olarak her nesne için ayrıntılı bir segmentasyon maskesi oluşturur.
Bu model ortaya çıktığında, yapay zeka topluluğu tarafından büyük bir heyecanla karşılandı ve kısa süre içinde çeşitli uygulamalarda kullanılmaya başlandı. Nesneleri gerçek zamanlı olarak tespit etme ve segmentlere ayırma yeteneği, onu farklı sektörlerde oyunun kurallarını değiştiren bir unsur haline getirdi.
Örneğin, nesli tükenmekte olan hayvanları vahşi doğada takip etmek zorlu bir iştir. Birçok tür sık ormanlarda hareket eder ve bu da korumacıların onları takip etmesini zorlaştırır. Geleneksel yöntemlerde kamera tuzakları, insansız hava araçları ve uydu görüntüleri kullanılır, ancak tüm bu verileri elle sıralamak zaman alıcıdır. Yanlış tanımlamalar ve gözden kaçan gözlemler koruma çabalarını yavaşlatabilir.
Mask R-CNN, kaplan çizgileri, zürafa benekleri veya bir filin kulaklarının şekli gibi benzersiz özellikleri tanıyarak, görüntü ve videolardaki hayvanları daha yüksek doğrulukla tespit edebilir ve bölümlere ayırabilir. Hayvanlar ağaçlar tarafından kısmen gizlendiğinde veya birbirine yakın durduğunda bile, model onları ayırabilir ve her birini ayrı ayrı tanımlayabilir, böylece yaban hayatı izlemeyi daha hızlı ve daha güvenilir hale getirir.
Nesne tespiti ve segmentasyonundaki tarihsel önemine rağmen, Mask R-CNN bazı önemli dezavantajları da beraberinde getirmektedir. İşte Maske R-CNN ile ilgili bazı zorluklar:
Maske R-CNN segmentasyon görevleri için harikaydı, ancak birçok endüstri hız ve gerçek zamanlı performansa öncelik verirken bilgisayarla görmeyi benimsemek istiyordu. Bu gereksinim, araştırmacıları nesneleri tek bir geçişte algılayan ve verimliliği büyük ölçüde artıran tek aşamalı modeller geliştirmeye yöneltti.
Mask R-CNN'nin çok adımlı sürecinin aksine, YOLO (You Only Look Once) gibi tek aşamalı bilgisayarla görme modelleri gerçek zamanlı bilgisayarla görme görevlerine odaklanır. Algılama ve segmentasyonu ayrı ayrı ele almak yerine, YOLO modelleri bir görüntüyü tek seferde analiz edebilir. Bu da hızlı karar vermenin çok önemli olduğu otonom sürüş, sağlık hizmetleri, üretim ve robotik gibi uygulamalar için idealdir.
Özellikle YOLO11 hem hızlı hem de doğru olmasıyla bunu bir adım öteye taşımaktadır. YOLOv8m 'den %22 daha az parametre kullanmasına rağmen COCO veri setinde daha yüksek ortalama hassasiyete (mAP) ulaşır, yani nesneleri daha hassas bir şekilde tespit eder. Geliştirilmiş işlem hızı, her milisaniyenin önemli olduğu gerçek zamanlı uygulamalar için iyi bir seçim olmasını sağlar.
Bilgisayarla görme tarihine bakıldığında, Mask R-CNN nesne algılama ve segmentasyonda büyük bir atılım olarak kabul edilmektedir. Ayrıntılı çok adımlı süreci sayesinde karmaşık ortamlarda bile çok hassas sonuçlar verir.
Ancak bu aynı süreç, YOLO gibi gerçek zamanlı modellere kıyasla daha yavaş olmasına neden olur. Hız ve verimlilik ihtiyacı arttıkça, birçok uygulama artık hızlı ve doğru nesne algılama sunan Ultralytics YOLO11 gibi tek aşamalı modeller kullanmaktadır. Mask R-CNN, bilgisayarla görmenin gelişimini anlamak açısından önemli olsa da, gerçek zamanlı çözümlere yönelik eğilim, daha hızlı ve daha verimli bilgisayarla görme çözümlerine yönelik artan talebi vurgulamaktadır.
Büyüyen topluluğumuza katılın! Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuzu keşfedin. Kendi yapay görme projelerinizi başlatmaya hazır mısınız? Lisanslama seçeneklerimize göz atın. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zekayı ve sağlık hizmetlerinde yapay zekayı keşfedin!
Makine öğreniminin geleceği ile yolculuğunuza başlayın