Anlamsal segmentasyon, bir görüntüdeki her bir piksele belirli bir sınıf etiketi atamayı içeren bilgisayarlı görüde (CV) temel bir görevdir. Nesneleri tanımlayabilen veya tüm görüntüyü sınıflandırabilen diğer görme görevlerinin aksine, anlamsal segmentasyon sahne içeriğinin yoğun, piksel düzeyinde anlaşılmasını sağlar. Yani sadece bir araba olduğunu tespit etmekle kalmaz, aynı zamanda hangi piksellerin araba kategorisine ait olduğunu kesin olarak belirler ve bunları yola, gökyüzüne veya yayalara ait piksellerden ayırır. Bir görüntüyü farklı nesne kategorilerine karşılık gelen anlamlı bölgelere ayırarak görsel ortamın kapsamlı bir şekilde anlaşılmasını sağlamayı amaçlar.
Semantik Segmentasyon Nasıl Çalışır?
Anlamsal segmentasyonun birincil amacı, bir görüntüdeki her pikseli önceden tanımlanmış bir kategori kümesine sınıflandırmaktır. Örneğin, birden fazla araba, yaya ve ağaç içeren bir görüntüde, anlamsal segmentasyon modeli herhangi bir arabayı oluşturan tüm pikselleri 'araba' olarak, herhangi bir yaya için tüm pikselleri 'yaya' olarak ve herhangi bir ağaç için tüm pikselleri 'ağaç' olarak etiketleyecektir. Aynı nesne sınıfının tüm örneklerini aynı şekilde ele alır.
Modern semantik segmentasyon büyük ölçüde derin öğrenmeye, özellikle de Evrişimsel Sinir Ağlarına (CNN'ler) dayanır. Bu modeller tipik olarak denetimli öğrenme teknikleri kullanılarak eğitilir ve ayrıntılı piksel düzeyinde ek açıklamalara sahip büyük veri kümeleri gerektirir. Süreç, bir görüntünün ağa beslenmesini ve ardından bir segmentasyon haritası çıkarılmasını içerir. Bu harita esasen her pikselin değerinin (genellikle renkle temsil edilir) tahmin edilen sınıf etiketine karşılık geldiği ve 'yol', 'bina', 'kişi' vb. gibi farklı kategorileri görsel olarak ayıran bir görüntüdür. Veri etiketlemenin kalitesi, doğru modellerin eğitilmesi için çok önemlidir.
Diğer Segmentasyon Görevlerinden Temel Farklılıklar
Anlamsal segmentasyonu ilgili bilgisayarla görme görevlerinden ayırmak önemlidir:
- Görüntü Sınıflandırma: Görüntünün tamamına tek bir etiket atar (örneğin, "bu görüntüde bir kedi var"). Nesnelerin yerini belirlemez veya ana hatlarını çizmez.
- Nesne Algılama: Sınırlayıcı kutuları kullanarak nesneleri tanımlar ve konumlandırır. Nesnelerin nerede olduğunu söyler ancak piksel düzeyinde tam şekillerini sağlamaz.
- Örnek Segmentasyonu: Sadece her bir pikseli sınıflandırmakla kalmayıp aynı zamanda aynı nesne sınıfının farklı örnekleri arasında ayrım yaparak anlamsal segmentasyondan bir adım daha ileri gider. Örneğin, sahnedeki her bir arabaya benzersiz bir kimlik ve maske atar. Daha fazla ayrıntı için örnek ve anlamsal segmentasyonu karşılaştıran bu kılavuza bakın.
- Panoptik Segmentasyon: Gökyüzü veya yol gibi sayılamayan arka plan bölgelerini ('şeyler') gruplandırırken her piksel için bir kategori etiketi ve sayılabilir nesneler ('şeyler') için benzersiz örnek kimlikleri sağlayarak anlamsal ve örnek segmentasyonunu birleştirir.
Gerçek Dünya Uygulamaları
Semantik segmentasyonun sağladığı ayrıntılı sahne anlayışı, birçok gerçek dünya uygulaması için çok önemlidir:
- Otonom Sürüş: Kendi kendine giden araçlar, çevrelerini tam olarak anlamak için semantik segmentasyonu kullanır. Otonom sürüş sistemi yollara, şeritlere, kaldırımlara, yayalara, diğer araçlara ve engellere ait pikselleri sınıflandırarak daha güvenli navigasyon kararları verebilir. Bu, otomotiv çözümleri için yapay zekanın önemli bir bileşenidir.
- Tıbbi Görüntü Analizi: Sağlık hizmetlerinde semantik segmentasyon, MRI veya CT gibi tıbbi taramaların analiz edilmesine yardımcı olur. Organları otomatik olarak tanımlayabilir, tümörleri veya lezyonları belirleyip ölçebilir ve anormallikleri piksel düzeyinde doğrulukla vurgulayabilir. Örneğin, Ultralytics YOLO modelleri tümör tespiti için kullanılabilir ve radyologlara ayrıntılı tıbbi görüntüleme tekniklerine dayalı teşhis ve tedavi planlamasında yardımcı olur.
- Uydu Görüntüleri Analizi: Arazi örtüsü sınıflandırması, ormansızlaşmanın izlenmesi, şehir planlaması ve tarımsal uygulamalar için kullanılır. NASA Dünya Gözlemevi'nden örneklerde gösterildiği gibi, uydu fotoğraflarından ormanlar, su kütleleri, tarlalar ve yerleşim alanları arasında ayrım yapabilir. Uydu görüntülerini analiz etmek için bilgisayarla görmeyi kullanma hakkında daha fazlasını keşfedin.
- Robotik: Bir sahnedeki düzeni ve nesneleri anlayarak robotların çevrelerini daha etkili bir şekilde algılamalarını ve etkileşimde bulunmalarını sağlar. Robotikte bilgisayarla görmeyi entegre etme hakkında bilgi edinin.
Modeller ve Araçlar
Anlamsal segmentasyon genellikle derin öğrenme modellerini, özellikle de CNN'lerden türetilen mimarileri kullanır.