Sözlük

Nesne Algılama

Nesne algılamanın gücünü keşfedin - YOLO gibi son teknoloji modellerle görüntülerdeki veya videolardaki nesneleri tanımlayın ve bulun. Gerçek dünya uygulamalarını keşfedin!

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Nesne algılama, bir görüntü veya video içindeki bir veya daha fazla nesnenin varlığını, konumunu ve türünü tanımlamayı içeren bilgisayarla görmede (CV) temel bir görevdir. Bir görüntünün tamamına tek bir etiket atayan (örneğin, 'kedi') görüntü sınıflandırmanın aksine, nesne algılama, bir sınırlayıcı kutu kullanarak her nesne örneğini kesin olarak ana hatlarıyla belirler ve ona bir sınıf etiketi atar (örneğin, x, y, genişlik, yükseklik koordinatlarında 'kedi'). Bu özellik, makinelerin görsel sahneleri daha ayrıntılı bir şekilde anlamasını sağlayarak insanın görsel algısını daha yakından taklit eder ve çevreyle daha karmaşık etkileşimlere olanak tanır. Birçok modern yapay zeka (AI) uygulamasının arkasındaki temel teknolojidir.

Nesne Algılama Nasıl Çalışır?

Nesne tespiti tipik olarak iki temel görevi birleştirir: nesne sınıflandırması ('hangi' nesnenin mevcut olduğunu belirleme) ve nesne lokalizasyonu (genellikle sınırlayıcı kutu koordinatları aracılığıyla nesnenin 'nerede' bulunduğunu belirleme). Modern nesne algılama sistemleri büyük ölçüde derin öğrenmeye (DL), özellikle de Evrişimsel Sinir Ağlarına (CNN'ler) dayanır. Bu ağlar, farklı nesne sınıflarıyla ilişkili görsel özellikleri ve kalıpları öğrenmek için popüler COCO veri kümesi veya Open Images V7 gibi büyük, açıklamalı veri kümeleri üzerinde eğitilir.

Çalışma sırasında ( çıkarım olarak bilinir), eğitilmiş model bir giriş görüntüsünü veya video karesini işler. Her biri bir sınırlayıcı kutu, tahmini bir sınıf etiketi (örneğin, 'araba', 'insan', 'köpek') ve modelin tespit konusundaki kesinliğini gösteren bir güven puanı ile temsil edilen potansiyel nesnelerin bir listesini çıkarır. Maksimum Olmayan Bastırma (NMS) gibi teknikler genellikle aynı nesne için gereksiz, örtüşen kutuları kaldırarak bu çıktıları iyileştirmek için kullanılır. Bu modellerin performansı genellikle Birlik Üzerinde Kesişim (IoU) ve Ortalama Hassasiyet (mAP) gibi metrikler kullanılarak değerlendirilir.

Nesne Algılama ve İlgili Görevler

Nesne algılamayı diğer ilgili bilgisayarla görme görevlerinden ayırmak önemlidir:

  • Görüntü Sınıflandırma: Görüntünün tamamına tek bir etiket atar (örneğin, "Bu görüntüde bir köpek var"). Nesne(ler)in yerini belirlemez.
  • Görüntü Segmentasyonu: Bir görüntüdeki her pikseli sınıflandırarak nesne sınırlarının ayrıntılı bir haritasını oluşturur. Bu, nesne algılamanın sınırlayıcı kutularından daha ayrıntılıdır.
    • Anlamsal Segmentasyon: Her piksele bir sınıf etiketi atar (örneğin, 'arabalar'a ait tüm pikseller 'araba' olarak etiketlenir). Aynı sınıfın farklı örnekleri arasında ayrım yapmaz.
    • Örnek Segmentasyonu: Her piksele bir sınıf etiketi atar ve aynı sınıfın ayrı örnekleri arasında ayrım yapar (örneğin, 'araba 1', 'araba 2'). Algılama ve segmentasyonu birleştirir.
  • Nesne Takibi: Ardışık video karelerindeki nesneleri tespit etmeyi ve zaman içindeki hareketini takip etmek için her nesneye benzersiz bir kimlik atamayı içerir. Bu, nesne algılama üzerine kuruludur.

Nesne Algılama Modellerinin Türleri

Nesne algılama modelleri genellikle iki ana kategoriye ayrılır ve temel olarak yaklaşımları ve hız/doğruluk ödünleşimleri açısından farklılık gösterir:

  • İki Aşamalı Nesne Dedektörleri: Bu modeller önce nesnelerin bulunabileceği ilgi bölgeleri (RoIs) önerir ve ardından bu bölgelerdeki nesneleri sınıflandırır. Örnekler arasında R-CNN ailesi (Fast R-CNN, Faster R-CNN) bulunmaktadır. Genellikle yüksek doğruluk elde ederler ancak daha yavaş olma eğilimindedirler.
  • Tek Aşamalı Nesne Dedektörleri: Bu modeller, ayrı bir bölge önerme adımı olmadan, giriş görüntüsünden sınırlayıcı kutuları ve sınıf olasılıklarını tek bir geçişte doğrudan tahmin eder. Örnekler arasında Ultralytics YOLO (You Only Look Once) serisi, SSD (Single Shot MultiBox Detector) ve RetinaNet. Tipik olarak daha hızlıdırlar, bu da onları gerçek zamanlı çıkarım için uygun hale getirir, bazen iki aşamalı yöntemlere kıyasla biraz daha düşük doğruluk pahasına, ancak YOLO11 bu boşluğu etkili bir şekilde doldurmaktadır. Çapasız dedektörler gibi yeni yaklaşımlar tek aşamalı süreci daha da basitleştirmektedir. Farklı YOLO modelleri ve aşağıdaki gibi diğer mimariler arasındaki karşılaştırmaları keşfedebilirsiniz RT-DETR.

Gerçek Dünya Uygulamaları

Nesne algılama, çeşitli sektörlerde çok sayıda uygulamaya olanak sağlayan temel bir teknolojidir:

  1. Otonom Sistemler: Araçların ve robotların yayaları, diğer araçları, engelleri, trafik işaretlerini ve etkileşim için belirli öğeleri algılayarak çevrelerini algılamalarına olanak tanıyan, sürücüsüz otomobiller ve robotik için gereklidir. Tesla ve Waymo gibi şirketler büyük ölçüde sağlam nesne algılamaya güveniyor.
  2. Güvenlik ve Gözetim: Güvenlik alarm sistemlerinde davetsiz misafirleri tespit etmek, kalabalıkları izlemek(Vision AI in Crowd Management), terk edilmiş nesneleri tanımlamak ve kamusal alanlarda ve özel mülklerde izleme verimliliğini artırmak için kullanılır.
  3. Perakende Analitiği: Otomatik ödeme sistemleri, yapay zeka odaklı envanter yönetimi, raf izleme (stokta olmayan ürünleri tespit etme) ve müşteri yaya trafiği modellerini analiz etme gibi uygulamaları güçlendirir.
  4. Sağlık Hizmetleri: Tümör gibi anomalileri(Tümör Tespiti için YOLO11 Kullanımı) veya X-ışınları, CT taramaları ve MRI'lardaki lezyonları tespit etmek için tıbbi görüntü analizinde uygulanır ve radyologlara tanıda yardımcı olur(Radyoloji: Yapay Zeka).
  5. Tarım: Zararlıları, hastalıkları, yabani otları tespit etme, meyveleri sayma(Tarımda Bilgisayarla Görme) ve mahsul sağlığını izleme(tarım çözümlerinde yapay zeka) gibi hassas tarım tekniklerini mümkün kılar.
  6. Üretim: Montaj hatlarındaki ürünlerdeki kusurları tespit ederek kalite kontrol için kullanılır(Üretimde Kalite Denetimi), tehlikeli alanları izleyerek güvenliği sağlar ve robotik görevleri otomatikleştirir.

Araçlar ve Eğitim

Nesne algılama modellerinin geliştirilmesi ve dağıtılması çeşitli araçlar ve teknikler içerir. Gibi popüler derin öğrenme çerçeveleri PyTorch ve TensorFlow temel kütüphaneleri sağlar. OpenCV gibi bilgisayarla görme kütüphaneleri temel görüntü işleme işlevlerini sunar.

Ultralytics son teknoloji ürünü Ultralytics YOLO dahil olmak üzere modeller YOLOv8 ve YOLO11hız ve doğruluk için optimize edilmiştir. Ultralytics HUB platformu, veri kümelerini yönetmek, özel modelleri eğitmek, hiperparametre ayarlaması yapmak ve model dağıtımını kolaylaştırmak için araçlar sunarak iş akışını daha da basitleştirir. Etkili model eğitimi genellikle veri artırma stratejilerinden ve ImageNet gibi veri kümelerinden önceden eğitilmiş ağırlıkları kullanarak transfer öğrenimi gibi tekniklerden yararlanır.

Tümünü okuyun