Sözlük

Nesne Algılama Mimarileri

Görüntü anlamanın yapay zeka omurgası olan nesne algılama mimarilerinin gücünü keşfedin. Türleri, araçları ve gerçek dünya uygulamalarını bugün öğrenin!

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Nesne algılama mimarileri, yapay zeka (AI) sistemlerinin görsel bilgileri nasıl yorumladığını destekleyen temel yapılardır. Bu özel sinir ağları sadece bir görüntüdeki nesneleri sınıflandırmak ( neyin mevcut olduğunu belirlemek) için değil, aynı zamanda tipik olarak tespit edilen her örneğin etrafına sınırlayıcı kutular çizerek onları tam olarak konumlandırmak için tasarlanmıştır. Temel makine öğrenimi kavramlarına aşina olanlar için bu mimarileri anlamak, modern bilgisayarla görmenin yeteneklerinden yararlanmak için çok önemlidir.

Çekirdek Bileşenler

Çoğu nesne algılama mimarisi birlikte çalışan birkaç temel bileşenden oluşur. Genellikle bir Evrişimsel Sinir Ağı (CNN) olan bir omurga ağı, giriş görüntüsünden ilk özellik çıkarma işlemini gerçekleştirerek kenarlar ve dokular gibi düşük seviyeli desenleri ve giderek daha karmaşık özellikleri tanımlar. Bunu genellikle bir "boyun" bileşeni takip eder ve çeşitli ölçeklerdeki nesneleri tespit etmeye uygun daha zengin temsiller oluşturmak için omurganın farklı aşamalarından özellikleri toplar. Son olarak, algılama kafası nesnelerin sınıfını ve konumunu (sınırlayıcı kutu koordinatları) tahmin etmek için bu özellikleri kullanır. Performans genellikle yerelleştirme doğruluğunu değerlendirmek için Birlik Üzerinden Kesişim (IoU) gibi metrikler kullanılarak ölçülür.

Mimari Türleri

Nesne algılama mimarileri, yaklaşımlarına göre genel olarak sınıflandırılır:

Benzer Terimlerden Ayırt Etme

Nesne algılama mimarilerini ilgili bilgisayarla görme görevlerinden ayırmak önemlidir:

  • Görüntü Sınıflandırma: Bir görüntünün ana konusunu tanımlar (örneğin, "kedi") ancak yerini belirlemez. Nesne algılama size hangi nesnelerin mevcut olduğunu ve nerede olduklarını söyler.
  • Anlamsal Segmentasyon: Bir görüntüdeki her pikseli önceden tanımlanmış kategorilere (örn. yol, araba, gökyüzü) sınıflandırarak, tek tek nesne örnekleri arasında ayrım yapmadan yoğun, piksel düzeyinde bir anlayış sağlar.
  • Örnek Segmentasyonu: Tek tek nesne örneklerini tanımlayarak ve her biri için piksel düzeyinde bir maske sağlayarak hem nesne algılama hem de anlamsal segmentasyondan bir adım daha ileri gider.

Gerçek Dünya Uygulamaları

Nesne algılama mimarileri, farklı sektörlerdeki çok sayıda yapay zeka uygulamasına güç veriyor:

  1. Otonom Araçlar: Güvenli navigasyon için sürücüsüz araçların diğer araçları, yayaları, bisikletlileri ve trafik sinyallerini algılayarak çevrelerini algılamalarını sağlamak için çok önemlidir(bkz. sürücüsüz araçlarda yapay zeka blogu).
  2. Tıbbi Görüntü Analizi: X-ışınları, CT taramaları ve MRI'larda tümörler, lezyonlar veya kırıklar gibi anomalileri otomatik olarak tespit edip lokalize ederek radyologlara yardımcı olmak ve potansiyel olarak daha erken teşhislere yol açmak(Sağlık Hizmetlerinde Yapay Zekayı keşfedin).
  3. Güvenlik ve Gözetim: İzinsiz girişleri tespit ederek, belirli kişileri tanımlayarak(yüz tanıma) veya video akışlarındaki nesneleri izleyerek izlemeyi otomatikleştirme(bkz. Güvenlik Alarm Sistemi Kılavuzu).
  4. Perakende Analitiği: Raf stokunun izlenmesi(envanter yönetimi için yapay zeka), müşteri yaya trafiğinin analiz edilmesi ve ödeme sistemlerinin iyileştirilmesi.

Araçlar ve Teknolojiler

Bu mimarilere dayalı modellerin geliştirilmesi ve dağıtılması genellikle özel araçlar ve çerçeveler gerektirir:

  • Ultralytics YOLO: Gerçek zamanlı uygulamalar için yaygın olarak kullanılan, hız ve doğruluğu dengelemesiyle bilinen popüler bir model ailesi ve beraberindeki bir çerçeve. YOLO11 vs YOLOv10 gibi farklı YOLO sürümlerini karşılaştırabilirsiniz.
  • Ultralytics HUB: Kapsamlı kodlama olmadan YOLO modellerini eğitme, yönetme ve dağıtma sürecini basitleştiren bir platform.
  • Derin Öğrenme Çerçeveleri: Gibi kütüphaneler PyTorch ve TensorFlow bu karmaşık sinir ağlarını oluşturmak ve eğitmek için yapı taşları sağlar.
  • OpenCV: Ön işleme ve son işleme görevleri için algılama modelleriyle birlikte sıklıkla kullanılan çok çeşitli bilgisayarla görme işlevleri sunan temel bir açık kaynak kütüphanesi.
Tümünü okuyun