Nesne algılamanın gelişimine bir göz atarken bize katılın. YOLO (You Only Look Once) modellerinin son yıllarda nasıl geliştiğine odaklanacağız.

Nesne algılamanın gelişimine bir göz atarken bize katılın. YOLO (You Only Look Once) modellerinin son yıllarda nasıl geliştiğine odaklanacağız.
Bilgisayarla görme, insanların gerçek dünyayı algılama biçimine benzer şekilde, makinelere görüntüleri ve videoları görmeyi ve anlamayı öğretmeye odaklanan yapay zekanın (AI) bir alt alanıdır. Nesneleri tanımak veya eylemleri belirlemek insanlar için ikinci doğa olsa da, makineler söz konusu olduğunda bu görevler özel ve uzmanlaşmış bilgisayarla görme teknikleri gerektirir. Örneğin, bilgisayarla görmedeki kilit görevlerden biri, görüntü veya videolardaki nesneleri tanımlamayı ve konumlandırmayı içeren nesne algılamadır.
1960'lardan beri araştırmacılar bilgisayarların nesneleri nasıl algılayabileceğini geliştirmek için çalışıyorlar. Şablon eşleştirme gibi ilk yöntemler, eşleşmeleri bulmak için önceden tanımlanmış bir şablonu bir görüntü üzerinde kaydırmayı içeriyordu. Yenilikçi olsa da bu yaklaşımlar nesne boyutu, yönü ve ışığındaki değişikliklerle mücadele ediyordu. Bugün, Ultralytics YOLO11 gibi, tıkalı nesneler olarak bilinen küçük ve kısmen gizli nesneleri bile etkileyici bir doğrulukla tespit edebilen gelişmiş modellerimiz var.
Bilgisayarlı görü gelişmeye devam ederken, bu teknolojilerin nasıl geliştiğine dönüp bakmak önemlidir. Bu makalede, nesne algılamanın evrimini inceleyecek ve YOLO (You Only Look Once) modellerinin dönüşümüne ışık tutacağız. Haydi başlayalım!
Nesne algılama konusuna girmeden önce, bilgisayarla görmenin nasıl başladığına bir göz atalım. Bilgisayarla görmenin kökenleri, bilim insanlarının beynin görsel bilgiyi nasıl işlediğini araştırmaya başladığı 1950'lerin sonları ve 1960'ların başlarına kadar uzanır. Araştırmacılar David Hubel ve Torsten Wiesel, kedilerle yaptıkları deneylerde beynin kenarlar ve çizgiler gibi basit desenlere tepki verdiğini keşfetti. Bu, özellik çıkarımının arkasındaki fikrin temelini oluşturdu - görsel sistemlerin daha karmaşık desenlere geçmeden önce görüntülerdeki kenarlar gibi temel özellikleri tespit edip tanıdığı kavramı.
Aynı dönemde, fiziksel görüntüleri dijital formatlara dönüştürebilen yeni bir teknoloji ortaya çıktı ve makinelerin görsel bilgileri nasıl işleyebileceği konusu ilgi uyandırdı. 1966'da Massachusetts Teknoloji Enstitüsü'nün (MIT) Yaz Görüş Projesi işleri daha da ileri götürdü. Proje tamamen başarılı olmasa da, görüntülerde ön planı arka plandan ayırabilecek bir sistem yaratmayı amaçlıyordu. Görme Yapay Zekası topluluğundaki birçok kişi için bu proje, bilimsel bir alan olarak bilgisayarla görmenin resmi başlangıcını işaret etmektedir.
1990'ların sonlarında ve 2000'lerin başlarında bilgisayarla görme geliştikçe, nesne algılama yöntemleri şablon eşleştirme gibi temel tekniklerden daha gelişmiş yaklaşımlara doğru kaymıştır. Popüler yöntemlerden biri, yüz algılama gibi görevler için yaygın olarak kullanılan Haar Cascade idi. Bu yöntem, görüntüleri kayan bir pencere ile tarayarak, görüntünün her bölümünde kenarlar veya dokular gibi belirli özellikleri kontrol ederek ve ardından yüzler gibi nesneleri tespit etmek için bu özellikleri birleştirerek çalışıyordu. Haar Cascade önceki yöntemlerden çok daha hızlıydı.
Bunların yanı sıra Histogram of Oriented Gradients (HOG) ve Destek Vektör Makineleri (SVM) gibi yöntemler de kullanılmaya başlandı. HOG, bir görüntünün küçük bölümlerinde ışık ve gölgelerin nasıl değiştiğini analiz etmek için kayan pencere tekniğini kullandı ve nesneleri şekillerine göre tanımlamaya yardımcı oldu. SVM'ler daha sonra nesnenin kimliğini belirlemek için bu özellikleri sınıflandırdı. Bu yöntemler doğruluğu artırdı ancak gerçek dünya ortamlarında hala zorlanıyordu ve günümüz tekniklerine kıyasla daha yavaştı.
2010'larda derin öğrenme ve Evrişimsel Sinir Ağlarının (CNN' ler) yükselişi nesne tespitinde büyük bir değişim getirdi. CNN'ler, bilgisayarların büyük miktarda veriden önemli özellikleri otomatik olarak öğrenmesini mümkün kıldı ve bu da algılamayı çok daha doğru hale getirdi.
R-CNN (Bölge Tabanlı Evrişimsel Sinir Ağları) gibi ilk modeller, nesneleri eski yöntemlere göre daha doğru bir şekilde tanımlamaya yardımcı olarak hassasiyette büyük bir gelişme sağladı.
Ancak bu modeller, görüntüleri birden fazla aşamada işledikleri için yavaştı ve bu da onları sürücüsüz otomobiller veya video gözetimi gibi alanlarda gerçek zamanlı uygulamalar için kullanışsız hale getiriyordu.
İşleri hızlandırmaya odaklanılarak daha verimli modeller geliştirildi. Fast R-CNN ve Faster R-CNN gibi modeller, ilgilenilen bölgelerin nasıl seçildiğini iyileştirerek ve algılama için gereken adım sayısını azaltarak yardımcı oldu. Bu, nesne algılamayı daha hızlı hale getirse de, anlık sonuçlara ihtiyaç duyan birçok gerçek dünya uygulaması için hala yeterince hızlı değildi. Gerçek zamanlı algılamaya yönelik artan talep, hem hızı hem de doğruluğu dengeleyebilecek daha hızlı ve daha verimli çözümlerin geliştirilmesine neden oldu.
YOLO, görüntülerde ve videolarda birden fazla nesnenin gerçek zamanlı olarak algılanmasını sağlayarak bilgisayarla görmeyi yeniden tanımlayan ve önceki algılama yöntemlerinden oldukça farklı kılan bir nesne algılama modelidir. Algılanan her nesneyi ayrı ayrı analiz etmek yerine, YOLO'nun mimarisi nesne algılamayı tek bir görev olarak ele alır ve CNN'leri kullanarak nesnelerin hem konumunu hem de sınıfını tek seferde tahmin eder.
Model, bir görüntüyü bir ızgaraya bölerek çalışır ve her bölüm kendi alanındaki nesneleri tespit etmekten sorumludur. Her bölüm için birden fazla tahmin yapar ve daha az güvenilir sonuçları filtreleyerek yalnızca doğru olanları tutar.
YOLO'nun bilgisayarla görme uygulamalarına girmesi, nesne algılamayı önceki modellere göre çok daha hızlı ve verimli hale getirdi. Hızı ve doğruluğu nedeniyle YOLO, üretim, sağlık ve robotik gibi sektörlerde gerçek zamanlı çözümler için hızla popüler bir seçim haline geldi.
Unutulmaması gereken bir diğer önemli nokta da, YOLO açık kaynak kodlu olduğu için, geliştiriciler ve araştırmacılar onu sürekli olarak geliştirebildi ve daha da gelişmiş sürümler ortaya çıktı.
YOLO modelleri zaman içinde sürekli olarak gelişti ve her versiyonda bir adım daha ileriye gitti. Daha iyi performansın yanı sıra, bu iyileştirmeler modellerin farklı teknik deneyim seviyelerine sahip kişiler için kullanımını kolaylaştırdı.
Örneğin, Ultralytics YOLOv5 tanıtıldığında, PyTorch ile modellerin dağıtımı daha basit hale geldi ve daha geniş bir kullanıcı yelpazesinin gelişmiş yapay zeka ile çalışmasına izin verdi. Doğruluk ve kullanılabilirliği bir araya getirerek, daha fazla kişiye kodlama uzmanı olmaya gerek kalmadan nesne algılamayı uygulama olanağı sağladı.
Ultralytics YOLOv8 , örnek segmentasyonu gibi görevler için destek ekleyerek ve modelleri daha esnek hale getirerek bu ilerlemeyi sürdürdü. YOLO'yu hem temel hem de daha karmaşık uygulamalar için kullanmak daha kolay hale geldi ve bu da onu çeşitli senaryolarda kullanışlı hale getirdi.
En son model olan Ultralytics YOLO11 ile daha fazla optimizasyon yapılmıştır. Doğruluğu artırırken parametre sayısını azaltarak, gerçek zamanlı görevler için artık daha verimli. İster deneyimli bir geliştirici ister yapay zekada yeni olun, YOLO11 nesne algılamaya kolayca erişilebilen gelişmiş bir yaklaşım sunar.
Ultralytics'in yıllık hibrit etkinliği YOLO Vision 2024'te (YV24) lanse edilen YOLO11, nesne algılama, örnek segmentasyonu, görüntü sınıflandırma ve poz tahmini gibi YOLOv8 ile aynı bilgisayarla görme görevlerini destekliyor. Böylece kullanıcılar iş akışlarını değiştirmeye gerek kalmadan bu yeni modele kolayca geçiş yapabilirler. Ayrıca, YOLO11'in yükseltilmiş mimarisi tahminleri daha da hassas hale getiriyor. Aslında, YOLO11m, COCO veri kümesinde YOLOv8m'den %22 daha az parametre ile daha yüksek bir ortalama ortalama hassasiyet (mAP) elde eder.
YOLO11 ayrıca akıllı telefonlar ve diğer uç cihazlardan daha güçlü bulut sistemlerine kadar çeşitli platformlarda verimli bir şekilde çalışacak şekilde tasarlanmıştır. Bu esneklik, gerçek zamanlı uygulamalar için farklı donanım kurulumlarında sorunsuz performans sağlar. Bunun da ötesinde, YOLO11 daha hızlı ve daha verimlidir, hesaplama maliyetlerini azaltır ve çıkarım sürelerini hızlandırır. İster Ultralytics Python paketini ister kodsuz Ultralytics HUB'ı kullanıyor olun, YOLO11'i mevcut iş akışlarınıza entegre etmek kolaydır.
Gelişmiş nesne algılamanın gerçek zamanlı uygulamalar ve uç yapay zeka üzerindeki etkisi şimdiden tüm sektörlerde hissediliyor. Petrol ve gaz, sağlık ve perakende gibi sektörler yapay zekaya giderek daha fazla bel bağladıkça, hızlı ve hassas nesne algılama talebi de artmaya devam ediyor. YOLO11, sınırlı bilgi işlem gücüne sahip cihazlarda bile yüksek performanslı algılama sağlayarak bu talebe yanıt vermeyi amaçlıyor.
Uç yapay zeka geliştikçe, YOLO11 gibi nesne algılama modellerinin hız ve doğruluğun kritik olduğu ortamlarda gerçek zamanlı karar verme için daha da önemli hale gelmesi muhtemeldir. Tasarım ve uyarlanabilirlikte devam eden iyileştirmelerle, nesne algılamanın geleceği çeşitli uygulamalarda daha da fazla yenilik getirecek gibi görünüyor.
Nesne algılama, basit yöntemlerden bugün gördüğümüz gelişmiş derin öğrenme tekniklerine kadar uzun bir yol kat etti. YOLO modelleri, farklı sektörlerde daha hızlı ve daha doğru gerçek zamanlı algılama sağlayarak bu ilerlemenin merkezinde yer almıştır. YOLO11 bu mirası geliştirerek verimliliği artırıyor, hesaplama maliyetlerini düşürüyor ve doğruluğu artırarak çeşitli gerçek zamanlı uygulamalar için güvenilir bir seçim haline getiriyor. Yapay zeka ve bilgisayarla görme alanında devam eden ilerlemelerle birlikte, nesne algılamanın geleceği parlak görünüyor ve hız, hassasiyet ve uyarlanabilirlik konularında daha da fazla iyileştirmeye yer var.
Yapay zekayı merak mı ediyorsunuz? Öğrenmeye devam etmek için topluluğumuzla bağlantıda kalın! Üretim ve sağlık gibi sektörlerde yenilikçi çözümler oluşturmak için yapay zekayı nasıl kullandığımızı keşfetmek için GitHub depomuza göz atın. 🚀