Yeşil çek
Panoya kopyalanan bağlantı

Nesne Algılama ve Ultralytics' YOLO Modellerinin Evrimi

Nesne algılamanın gelişimine bir göz atarken bize katılın. Son yıllarda YOLO (You Only Look Once) modellerinin nasıl geliştiğine odaklanacağız.

Bilgisayarla görme, insanların gerçek dünyayı algılama biçimine benzer şekilde, makinelere görüntüleri ve videoları görmeyi ve anlamayı öğretmeye odaklanan yapay zekanın (AI) bir alt alanıdır. Nesneleri tanımak veya eylemleri belirlemek insanlar için ikinci doğa olsa da, makineler söz konusu olduğunda bu görevler özel ve uzmanlaşmış bilgisayarla görme teknikleri gerektirir. Örneğin, bilgisayarlı görüdeki kilit görevlerden biri, görüntü veya videolardaki nesneleri tanımlamayı ve konumlandırmayı içeren nesne algılamadır

1960'lardan beri araştırmacılar bilgisayarların nesneleri nasıl algılayabileceğini geliştirmek için çalışıyorlar. Şablon eşleştirme gibi ilk yöntemler, eşleşmeleri bulmak için önceden tanımlanmış bir şablonu bir görüntü üzerinde kaydırmayı içeriyordu. Yenilikçi olsa da bu yaklaşımlar nesne boyutu, yönü ve ışıklandırmadaki değişikliklerle mücadele ediyordu. Bugün, aşağıdaki gibi gelişmiş modellerimiz var Ultralytics YOLO11 Tıkalı nesneler olarak bilinen küçük ve kısmen gizli nesneleri bile etkileyici bir doğrulukla tespit edebilen

Bilgisayarlı görü gelişmeye devam ederken, bu teknolojilerin nasıl geliştiğine dönüp bakmak önemlidir. Bu makalede, nesne algılamanın evrimini inceleyecek ve YOLO (You Only Look Once) modellerinin dönüşümüne ışık tutacağız. Haydi başlayalım!

Bilgisayarla Görmenin Kökenleri

Nesne algılama konusuna girmeden önce, bilgisayarla görmenin nasıl başladığına bir göz atalım. Bilgisayarla görmenin kökenleri, bilim insanlarının beynin görsel bilgiyi nasıl işlediğini araştırmaya başladığı 1950'lerin sonları ve 1960'ların başlarına kadar uzanır. Araştırmacılar David Hubel ve Torsten Wiesel, kedilerle yaptıkları deneylerde beynin kenarlar ve çizgiler gibi basit desenlere tepki verdiğini keşfettiler. Bu, özellik çıkarımının arkasındaki fikrin temelini oluşturdu - görsel sistemlerin daha karmaşık desenlere geçmeden önce görüntülerdeki kenarlar gibi temel özellikleri tespit edip tanıdığı kavramı.

Şekil 1. Bir kedinin beyninin ışık çubuklarına nasıl tepki verdiğini öğrenmek, bilgisayarla görmede özellik çıkarımının geliştirilmesine yardımcı oldu.

Aynı dönemde, fiziksel görüntüleri dijital formatlara dönüştürebilen yeni bir teknoloji ortaya çıktı ve makinelerin görsel bilgileri nasıl işleyebileceği konusu ilgi uyandırdı. 1966'da Massachusetts Teknoloji Enstitüsü'nün (MIT) Yaz Görüş Projesi işleri daha da ileri götürdü. Proje tamamen başarılı olmasa da, görüntülerde ön planı arka plandan ayırabilecek bir sistem yaratmayı amaçlıyordu. Görme Yapay Zekası topluluğundaki birçok kişi için bu proje, bilimsel bir alan olarak bilgisayarla görmenin resmi başlangıcını işaret etmektedir.

Nesne Tespitinin Tarihçesini Anlamak

1990'ların sonu ve 2000'lerin başında bilgisayarlı görü geliştikçe, nesne algılama yöntemleri şablon eşleştirme gibi temel tekniklerden daha gelişmiş yaklaşımlara doğru kaymıştır. Popüler yöntemlerden biri, yüz algılama gibi görevler için yaygın olarak kullanılan Haar Cascade idi. Bu yöntem, görüntüleri kayan bir pencere ile tarayarak, görüntünün her bölümünde kenarlar veya dokular gibi belirli özellikleri kontrol ederek ve ardından yüzler gibi nesneleri tespit etmek için bu özellikleri birleştirerek çalışıyordu. Haar Cascade önceki yöntemlerden çok daha hızlıydı.

Şekil 2. Yüz Algılama için Haar Cascade Kullanımı.

Bunların yanı sıra Histogram of Oriented Gradients (HOG) ve Destek Vektör Makineleri (SVM) gibi yöntemler de kullanılmaya başlandı. HOG, bir görüntünün küçük bölümlerinde ışık ve gölgelerin nasıl değiştiğini analiz etmek için kayan pencere tekniğini kullandı ve nesneleri şekillerine göre tanımlamaya yardımcı oldu. SVM'ler daha sonra nesnenin kimliğini belirlemek için bu özellikleri sınıflandırdı. Bu yöntemler doğruluğu artırdı ancak gerçek dünya ortamlarında hala zorlanıyordu ve günümüz tekniklerine kıyasla daha yavaştı.

Gerçek Zamanlı Nesne Algılama İhtiyacı

2010'larda derin öğrenme ve Evrişimsel Sinir Ağlarının (CNN' ler) yükselişi nesne tespitinde büyük bir değişim getirdi. CNN'ler, bilgisayarların büyük miktarda veriden önemli özellikleri otomatik olarak öğrenmesini mümkün kıldı ve bu da algılamayı çok daha doğru hale getirdi. 

R-CNN (Bölge Tabanlı Evrişimsel Sinir Ağları) gibi ilk modeller, nesneleri eski yöntemlere göre daha doğru bir şekilde tanımlamaya yardımcı olarak hassasiyette büyük bir gelişme sağladı. 

Ancak bu modeller, görüntüleri birden fazla aşamada işledikleri için yavaştı ve bu da onları sürücüsüz arabalar veya video gözetimi gibi alanlarda gerçek zamanlı uygulamalar için kullanışsız hale getiriyordu.

İşleri hızlandırmaya odaklanılarak daha verimli modeller geliştirildi. Fast R-CNN ve Faster R-CNN gibi modeller, ilgilenilen bölgelerin nasıl seçildiğini iyileştirerek ve algılama için gereken adım sayısını azaltarak yardımcı oldu. Bu, nesne algılamayı daha hızlı hale getirse de, anlık sonuçlara ihtiyaç duyan birçok gerçek dünya uygulaması için hala yeterince hızlı değildi. Gerçek zamanlı algılamaya yönelik artan talep, hem hızı hem de doğruluğu dengeleyebilecek daha hızlı ve daha verimli çözümlerin geliştirilmesine neden oldu.

Şekil 3. R-CNN, Hızlı R-CNN ve Daha Hızlı R-CNN'nin Hızlarının Karşılaştırılması.

YOLO (You Only Look Once) Modelleri: Önemli Bir Dönüm Noktası

YOLO görüntülerde ve videolarda birden fazla nesnenin gerçek zamanlı olarak algılanmasını sağlayarak bilgisayarla görmeyi yeniden tanımlayan ve önceki algılama yöntemlerinden oldukça farklı kılan bir nesne algılama modelidir. Algılanan her nesneyi ayrı ayrı analiz etmek yerine, YOLO'un mimarisi nesne algılamayı tek bir görev olarak ele alır ve CNN'leri kullanarak nesnelerin hem konumunu hem de sınıfını tek seferde tahmin eder. 

Model, bir görüntüyü bir ızgaraya bölerek çalışır ve her bölüm kendi alanındaki nesneleri tespit etmekten sorumludur. Her bölüm için birden fazla tahmin yapar ve daha az güvenilir sonuçları filtreleyerek yalnızca doğru olanları tutar. 

Şekil 4. YOLO 'un Nasıl Çalıştığına Genel Bir Bakış.

YOLO 'un bilgisayarla görme uygulamalarına girmesi, nesne algılamayı önceki modellere göre çok daha hızlı ve verimli hale getirdi. Hızı ve doğruluğu nedeniyle YOLO kısa sürede üretim, sağlık ve robotik gibi sektörlerde gerçek zamanlı çözümler için popüler bir seçim haline geldi.

Unutulmaması gereken bir diğer önemli nokta da, YOLO açık kaynak kodlu olduğu için, geliştiriciler ve araştırmacılar onu sürekli olarak geliştirebildi ve daha da gelişmiş sürümler ortaya çıktı.

YOLO adresinden YOLO11

YOLO modelleri zaman içinde sürekli olarak geliştirilmiş ve her sürümde yeni gelişmeler kaydedilmiştir. Daha iyi performansın yanı sıra, bu iyileştirmeler modellerin farklı teknik deneyim seviyelerine sahip kişiler için kullanımını kolaylaştırdı.

Örneğin, ne zaman Ultralytics YOLOv5 tanıtıldı, modellerin dağıtımı daha basit hale geldi PyTorchBöylece daha geniş bir kullanıcı kitlesinin gelişmiş yapay zeka ile çalışmasına olanak tanıdı. Doğruluk ve kullanılabilirliği bir araya getirerek, daha fazla insana kodlama uzmanı olmalarına gerek kalmadan nesne algılamayı uygulama olanağı sağladı.

Şekil 5. YOLO modellerinin evrimi.

Ultralytics YOLOv8 örnek segmentasyonu gibi görevler için destek ekleyerek ve modelleri daha esnek hale getirerek bu ilerlemeyi sürdürdü. Hem temel hem de daha karmaşık uygulamalar için YOLO 'u kullanmak daha kolay hale geldi ve çeşitli senaryolarda kullanışlı hale geldi.

Son model ile, Ultralytics YOLO11daha fazla optimizasyon yapılmıştır. Doğruluğu artırırken parametre sayısını azaltarak, gerçek zamanlı görevler için artık daha verimli. İster deneyimli bir geliştirici ister yapay zeka konusunda yeni olun, YOLO11 nesne algılama konusunda kolayca erişilebilen gelişmiş bir yaklaşım sunuyor.

YOLO11'u Tanıyalım: Yeni Özellikler ve İyileştirmeler

YOLO11 Ultralytics'un yıllık hibrit etkinliği olan YOLO Vision 2024'te (YV24) lanse edilen bu yeni model, nesne algılama, örnek segmentasyonu, görüntü sınıflandırma ve poz tahmini gibi ile aynı YOLOv8bilgisayarla görme görevlerini desteklemektedir. Dolayısıyla, kullanıcılar iş akışlarını değiştirmeye gerek kalmadan bu yeni modele kolayca geçiş yapabilirler. Ayrıca, 'un yükseltilmiş mimarisi tahminleri daha da hassas hale getiriyor. Aslında, YOLO11m, YOLO11COCO veri kümesinde YOLOv8m'a göre %22 daha az parametre ile daha yüksek bir ortalama ortalama hassasiyet (mAP) elde etmektedir.

YOLO11 ayrıca akıllı telefonlar ve diğer uç cihazlardan daha güçlü bulut sistemlerine kadar çeşitli platformlarda verimli bir şekilde çalışacak şekilde üretilmiştir. Bu esneklik, gerçek zamanlı uygulamalar için farklı donanım kurulumlarında sorunsuz performans sağlar. Bunun da ötesinde, YOLO11 daha hızlı ve daha verimlidir, hesaplama maliyetlerini azaltır ve çıkarım sürelerini hızlandırır. İster Ultralytics Python paketini ister kodsuz Ultralytics HUB'ı kullanıyor olun, entegre etmek kolaydır YOLO11 mevcut iş akışlarınıza dahil edin.

YOLO Modellerinin ve Nesne Algılamanın Geleceği

Gelişmiş nesne algılamanın gerçek zamanlı uygulamalar ve uç yapay zeka üzerindeki etkisi şimdiden tüm sektörlerde hissediliyor. Petrol ve gaz, sağlık ve perakende gibi sektörler yapay zekaya giderek daha fazla bel bağladıkça, hızlı ve hassas nesne algılama talebi de artmaya devam ediyor. YOLO11 , sınırlı bilgi işlem gücüne sahip cihazlarda bile yüksek performanslı algılama sağlayarak bu talebe yanıt vermeyi amaçlıyor. 

Uç yapay zeka geliştikçe, YOLO11 gibi nesne algılama modellerinin hız ve doğruluğun kritik olduğu ortamlarda gerçek zamanlı karar verme için daha da önemli hale gelmesi muhtemeldir. Tasarım ve uyarlanabilirlikte devam eden iyileştirmelerle, nesne algılamanın geleceği çeşitli uygulamalarda daha da fazla yenilik getirecek gibi görünüyor.

Önemli Çıkarımlar

Nesne algılama, basit yöntemlerden bugün gördüğümüz gelişmiş derin öğrenme tekniklerine evrilerek uzun bir yol kat etti. YOLO modelleri, farklı sektörlerde daha hızlı ve daha doğru gerçek zamanlı algılama sağlayarak bu ilerlemenin merkezinde yer aldı. YOLO11 bu mirası geliştirerek verimliliği artırır, hesaplama maliyetlerini düşürür ve doğruluğu artırarak çeşitli gerçek zamanlı uygulamalar için güvenilir bir seçim haline getirir. Yapay zeka ve bilgisayarla görme alanında devam eden gelişmelerle birlikte, nesne algılamanın geleceği parlak görünmektedir ve hız, hassasiyet ve uyarlanabilirlik konularında daha da fazla iyileştirmeye yer vardır.

Yapay zekayı merak mı ediyorsunuz? Öğrenmeye devam etmek için topluluğumuzla bağlantıda kalın! Üretim ve sağlık gibi sektörlerde yenilikçi çözümler oluşturmak için yapay zekayı nasıl kullandığımızı keşfetmek için GitHub depomuza göz atın. 🚀

Facebook logosuTwitter logosuLinkedIn logosuKopya-bağlantı sembolü

Bu kategoride daha fazlasını okuyun

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın