Nesne algılamanın gücünü keşfedin - YOLO gibi son teknoloji modellerle görüntülerdeki veya videolardaki nesneleri tanımlayın ve bulun. Gerçek dünya uygulamalarını keşfedin!
Nesne algılama, bir görüntü veya video içindeki bir veya daha fazla nesnenin varlığını, konumunu ve türünü tanımlamayı içeren bilgisayarla görmede (CV) temel bir görevdir. Bir görüntünün tamamına tek bir etiket atayan (örneğin, 'kedi') görüntü sınıflandırmanın aksine, nesne algılama, bir sınırlayıcı kutu kullanarak her nesne örneğini kesin olarak ana hatlarıyla belirler ve ona bir sınıf etiketi atar (örneğin, x, y, genişlik, yükseklik koordinatlarında 'kedi'). Bu özellik, makinelerin görsel sahneleri daha ayrıntılı bir şekilde anlamasını sağlayarak insanın görsel algısını daha yakından taklit eder ve çevreyle daha karmaşık etkileşimlere olanak tanır. Birçok modern yapay zeka (AI) uygulamasının arkasındaki temel teknolojidir.
Nesne tespiti tipik olarak iki temel görevi birleştirir: nesne sınıflandırması ('hangi' nesnenin mevcut olduğunu belirleme) ve nesne lokalizasyonu (genellikle sınırlayıcı kutu koordinatları aracılığıyla nesnenin 'nerede' bulunduğunu belirleme). Modern nesne algılama sistemleri büyük ölçüde derin öğrenmeye (DL), özellikle de Evrişimsel Sinir Ağlarına (CNN'ler) dayanır. Bu ağlar, farklı nesne sınıflarıyla ilişkili görsel özellikleri ve kalıpları öğrenmek için popüler COCO veri kümesi veya Open Images V7 gibi büyük, açıklamalı veri kümeleri üzerinde eğitilir.
Çalışma sırasında ( çıkarım olarak bilinir), eğitilmiş model bir giriş görüntüsünü veya video karesini işler. Her biri bir sınırlayıcı kutu, tahmini bir sınıf etiketi (örneğin, 'araba', 'insan', 'köpek') ve modelin tespit konusundaki kesinliğini gösteren bir güven puanı ile temsil edilen potansiyel nesnelerin bir listesini çıkarır. Maksimum Olmayan Bastırma (NMS) gibi teknikler genellikle aynı nesne için gereksiz, örtüşen kutuları kaldırarak bu çıktıları iyileştirmek için kullanılır. Bu modellerin performansı genellikle Birlik Üzerinde Kesişim (IoU) ve Ortalama Hassasiyet (mAP) gibi metrikler kullanılarak değerlendirilir.
Nesne algılamayı diğer ilgili bilgisayarla görme görevlerinden ayırmak önemlidir:
Nesne algılama modelleri genellikle iki ana kategoriye ayrılır ve temel olarak yaklaşımları ve hız/doğruluk ödünleşimleri açısından farklılık gösterir:
Nesne algılama, çeşitli sektörlerde çok sayıda uygulamaya olanak sağlayan temel bir teknolojidir:
Nesne algılama modellerinin geliştirilmesi ve dağıtılması çeşitli araçlar ve teknikler içerir. Gibi popüler derin öğrenme çerçeveleri PyTorch ve TensorFlow temel kütüphaneleri sağlar. OpenCV gibi bilgisayarla görme kütüphaneleri temel görüntü işleme işlevlerini sunar.
Ultralytics son teknoloji ürünü Ultralytics YOLO dahil olmak üzere modeller YOLOv8 ve YOLO11hız ve doğruluk için optimize edilmiştir. Ultralytics HUB platformu, veri kümelerini yönetmek, özel modelleri eğitmek, hiperparametre ayarlaması yapmak ve model dağıtımını kolaylaştırmak için araçlar sunarak iş akışını daha da basitleştirir. Etkili model eğitimi genellikle veri artırma stratejilerinden ve ImageNet gibi veri kümelerinden önceden eğitilmiş ağırlıkları kullanarak transfer öğrenimi gibi tekniklerden yararlanır.