Yeşil çek
Panoya kopyalanan bağlantı

YOLO12 açıklandı: Gerçek dünya uygulamaları ve kullanım örnekleri

En yeni bilgisayarla görme modeli YOLO12'yi keşfedin! Dikkat merkezli mimarisi ve FlashAttention teknolojisinin sektörler genelinde nesne algılama görevlerini nasıl geliştirdiğini öğrenin

Bilgisayarla görme, makinelerin görüntüleri ve videoları anlamasına yardımcı olan bir yapay zeka (AI) dalıdır. İnanılmaz bir hızla ilerleyen bir alandır çünkü YZ araştırmacıları ve geliştiricileri sürekli olarak sınırları zorlamaktadır. YZ topluluğu her zaman modelleri daha hızlı, daha akıllı ve daha verimli hale getirmeyi hedeflemektedir. En son atılımlardan biri, 18 Şubat 2025'te piyasaya sürülen YOLO (You Only Look Once) model serisinin en yeni üyesi YOLO 'dir.

YOLO12, Buffalo Üniversitesi, SUNY (New York Eyalet Üniversitesi) ve Çin Bilimler Akademisi Üniversitesi'nden araştırmacılar tarafından geliştirilmiştir. Benzersiz yeni bir yaklaşımla YOLO12, modelin her şeyi eşit olarak işlemek yerine bir görüntünün en önemli kısımlarına odaklanmasını sağlayan dikkat mekanizmalarını tanıtıyor. 

Ayrıca, daha az bellek kullanırken işlemeyi hızlandıran bir teknik olan FlashAttention ve insanların doğal olarak merkezi nesnelere odaklanma şeklini taklit etmek için tasarlanmış bir alan dikkat mekanizmasına sahiptir.

Bu iyileştirmeler YOLO12n'yi YOLOv10n'den %2,1 ve YOLO12m'yi YOLO11m'den %1,0 daha doğru hale getirmektedir. Ancak bunun bir bedeli var: YOLO12n, YOLOv10n'den %9 daha yavaş ve YOLO12m, YOLO11m'den %3 daha yavaş.

Şekil 1. Nesneleri tespit etmek için kullanılan bir YOLO12 örneği.

Bu makalede, YOLO12'yi farklı kılan özellikleri, önceki sürümlerle karşılaştırmasını ve nerelerde uygulanabileceğini inceleyeceğiz.

YOLO12'nin yayınlanmasına giden yol

YOLO model serisi, gerçek zamanlı nesne algılama için tasarlanmış bir bilgisayarla görme modelleri koleksiyonudur, yani görüntü ve videolardaki nesneleri hızlı bir şekilde tanımlayabilir ve bulabilirler. Zaman içinde her versiyon hız, doğruluk ve verimlilik açısından gelişmiştir.

Mesela, Ultralytics YOLOv52020'de piyasaya sürüldü, özel eğitim ve dağıtımı hızlı ve kolay olduğu için yaygın olarak kullanılmaya başlandı. Sonra görüşürüz, Ultralytics YOLOv8 örnek segmentasyonu ve nesne izleme gibi bilgisayarla görme görevleri için ek destek sunarak bunu geliştirdi. 

Daha yakın zamanda, Ultralytics YOLO11 hız ve doğruluk arasındaki dengeyi korurken gerçek zamanlı işlemeyi geliştirmeye odaklanmıştır. Örneğin, YOLO11m, YOLOv8m'den %22 daha az parametreye sahip olmasına rağmen, nesne algılama modellerini değerlendirmek için yaygın olarak kullanılan bir ölçüt olan COCO veri kümesinde daha iyi algılama performansı sunmuştur.

Bu gelişmeleri temel alan YOLO12, görsel bilgileri işleme biçiminde bir değişiklik getiriyor. Bir görüntünün tüm bölümlerine eşit muamele etmek yerine, en ilgili alanlara öncelik vererek algılama doğruluğunu artırıyor. Basitçe söylemek gerekirse, YOLO12 daha hassas olmayı hedeflerken önceki iyileştirmeleri temel alıyor.

YOLO12'nin temel özellikleri

YOLO12, gerçek zamanlı işleme hızlarını korurken bilgisayarla görme görevlerini geliştiren çeşitli iyileştirmeler sunar. İşte YOLO12'nin temel özelliklerine genel bir bakış:

  • Dikkat merkezli mimari: YOLO12, bir görüntünün her bölümüne eşit muamele etmek yerine en önemli alanlara odaklanır. Bu, doğruluğu artırır ve gereksiz işlemleri azaltarak karmaşık görüntülerde bile algılamayı daha keskin ve daha verimli hale getirir.
  • FlashAttention: YOLO12 daha az bellek kullanırken görüntü analizini hızlandırır. FlashAttention (bellek verimli bir algoritma) ile veri işlemeyi optimize eder, donanım yükünü azaltır ve gerçek zamanlı görevleri daha sorunsuz ve daha güvenilir hale getirir.
  • Artık Verimli Katman Toplama Ağları (R-ELAN): YOLO12, R-ELAN kullanarak katmanlarını daha verimli bir şekilde düzenler, bu da modelin verileri işleme ve öğrenme şeklini geliştirir. Bu, eğitimi daha istikrarlı, nesne tanımayı daha keskin ve bilgi işlem gereksinimlerini daha düşük hale getirir, böylece farklı ortamlarda verimli bir şekilde çalışır.

Bu özelliklerin gerçek hayatta nasıl çalıştığını anlamak için bir alışveriş merkezini düşünün. YOLO12 alışveriş yapanların izlenmesine, saksı bitkileri veya promosyon tabelaları gibi mağaza dekorasyonlarının belirlenmesine ve yanlış yerleştirilmiş veya terk edilmiş ürünlerin tespit edilmesine yardımcı olabilir. 

Dikkat merkezli mimarisi en önemli ayrıntılara odaklanmasına yardımcı olurken, FlashAttention sistemi aşırı yüklemeden her şeyi hızlı bir şekilde işlemesini sağlar. Bu, alışveriş merkezi operatörlerinin güvenliği artırmasını, mağaza düzenlerini organize etmesini ve genel alışveriş deneyimini geliştirmesini kolaylaştırır.

Şekil 2. YOLO12 kullanarak bir alışveriş merkezindeki nesnelerin algılanması.

Bununla birlikte, YOLO12 dikkate alınması gereken bazı sınırlamalarla birlikte gelir:

  • Daha yavaş eğitim süreleri: Mimarisi nedeniyle YOLO12, YOLO11'e kıyasla daha fazla eğitim süresi gerektirir.
  • Dışa aktarma zorlukları: Bazı kullanıcılar YOLO12 modellerini dışa aktarırken, özellikle de bunları belirli dağıtım ortamlarına entegre ederken zorluklarla karşılaşabilir.

YOLO12'nin performans ölçütlerini anlama

YOLO12'nin her biri farklı ihtiyaçlar için optimize edilmiş birden fazla çeşidi bulunmaktadır. Daha küçük versiyonlar (nano ve küçük) hız ve verimliliğe öncelik vererek mobil cihazlar ve uç bilişim için idealdir. Orta ve büyük versiyonlar hız ve doğruluk arasında bir denge kurarken, YOLO12x (ekstra büyük) endüstriyel otomasyon, tıbbi görüntüleme ve gelişmiş gözetim sistemleri gibi yüksek hassasiyetli uygulamalar için tasarlanmıştır.

Bu varyasyonlarla YOLO12, model boyutuna bağlı olarak farklı performans seviyeleri sunar. Kıyaslama testleri, YOLO12'nin belirli varyantlarının doğruluk açısından YOLOv10 ve YOLO11 'den daha iyi performans gösterdiğini ve daha yüksek ortalama hassasiyet (mAP) elde ettiğini göstermektedir. 

Ancak YOLO12m, YOLO12l ve YOLO12x gibi bazı modeller görüntüleri YOLO11'den daha yavaş işleyerek tespit doğruluğu ve hız arasında bir denge olduğunu göstermektedir. Buna rağmen YOLO12, YOLO11'den daha fazla parametre kullanmasına rağmen diğer birçok modelden daha az parametre gerektirerek verimli olmaya devam etmektedir. Bu da onu doğruluğun ham hızdan daha önemli olduğu uygulamalar için mükemmel bir seçim haline getirmektedir.

Şekil 3. Ultralytics YOLO11 ve YOLO12'nin karşılaştırılması.

Ultralytics Python paketi aracılığıyla YOLO12'yi kullanma

YOLO12, Ultralytics Python paketi tarafından desteklenir ve kullanımı kolaydır, bu da hem yeni başlayanlar hem de profesyoneller için erişilebilir olmasını sağlar. Kullanıcılar sadece birkaç satır kodla önceden eğitilmiş modelleri yükleyebilir, görüntüler ve videolar üzerinde çeşitli bilgisayarla görme görevlerini çalıştırabilir ve ayrıca YOLO12'yi özel veri kümeleri üzerinde eğitebilir. Ultralytics Python paketi, karmaşık kurulum adımlarına olan ihtiyacı ortadan kaldırarak süreci kolaylaştırır.

Örneğin, nesne algılama için YOLO12'yi kullanmak üzere uygulayacağınız adımlar şunlardır:

  • Ultralytics paketini yükleyin: İlk olarak, YOLO12'yi verimli bir şekilde çalıştırmak için gereken araçları sağlayan Ultralytics Python paketini yükleyin. Bu, tüm bağımlılıkların doğru şekilde kurulmasını sağlar.
  • Önceden eğitilmiş bir YOLO12 modeli yükleyin: Göreviniz için gereken doğruluk ve hız düzeyine göre uygun YOLO12 varyantını (nano, küçük, orta, büyük veya ekstra büyük) seçin.
  • Bir görüntü veya video sağlayın: Analiz etmek istediğiniz bir görüntü veya video dosyasını girin. YOLO12, gerçek zamanlı algılama için canlı video akışlarını da işleyebilir.
  • Algılama işlemini çalıştırın: Model görsel verileri tarar, nesneleri tanımlar ve etraflarına sınırlayıcı kutular yerleştirir. Algılanan her nesneyi tahmin edilen sınıfı ve güven puanı ile etiketler.
  • Algılama ayarlarını yapın: Algılama doğruluğuna ve performansına ince ayar yapmak için güven eşikleri gibi parametreleri de değiştirebilirsiniz.
  • Çıktıyı kaydedin veya kullanın: Artık algılanan nesneleri içeren işlenmiş görüntü veya video kaydedilebilir veya daha fazla analiz, otomasyon veya karar verme için bir uygulamaya entegre edilebilir.

Bu adımlar, YOLO12'nin gözetim ve perakende takibinden tıbbi görüntüleme ve otonom araçlara kadar çeşitli uygulamalar için kullanımını kolaylaştırır.

Pratik YOLO12 uygulamaları

YOLO12, nesne algılama, örnek segmentasyonu, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş nesne algılama (OBB) desteği sayesinde çeşitli gerçek dünya uygulamalarında kullanılabilir. 

Şekil 4. YOLO12 nesne algılama ve örnek segmentasyonu gibi görevleri destekler.

Ancak daha önce de bahsettiğimiz gibi, YOLO12 modelleri hızdan ziyade doğruluğa öncelik verir, yani önceki sürümlere kıyasla görüntüleri işlemek biraz daha uzun sürer. Bu değiş tokuş, YOLO12'yi hassasiyetin gerçek zamanlı hızdan daha önemli olduğu uygulamalar için ideal hale getirir:

  • Tıbbi görüntüleme: YOLO12, X-ışınları ve MRI'lardaki tümörleri veya anormallikleri yüksek doğrulukla tespit etmek için özel olarak eğitilebilir, bu da onu teşhis için hassas görüntü analizine ihtiyaç duyan doktorlar ve radyologlar için yararlı bir araç haline getirir.
  • Üretimde kalite kontrol: Üretim sürecinde ürün kusurlarının tespit edilmesine yardımcı olabilir, sadece yüksek kaliteli ürünlerin piyasaya sürülmesini sağlarken israfı azaltır ve verimliliği artırır.
  • Adli analiz: Kolluk kuvvetleri, güvenlik kamerası görüntülerini analiz etmek ve kanıt toplamak için YOLO12'ye ince ayar yapabilir. Cezai soruşturmalarda, önemli ayrıntıların belirlenmesi için hassasiyet hayati önem taşır.
  • Hassas tarım: Çiftçiler YOLO12'yi mahsul sağlığını analiz etmek, hastalık veya haşere istilalarını tespit etmek ve toprak koşullarını izlemek için kullanabilir. Doğru değerlendirmeler, tarım stratejilerinin optimize edilmesine yardımcı olarak daha iyi verim ve kaynak yönetimi sağlar.

YOLO12 ile çalışmaya başlama

YOLO12'yi çalıştırmadan önce, sisteminizin gerekli gereksinimleri karşıladığından emin olmanız önemlidir.

Teknik olarak, YOLO12 herhangi bir özel GPU (Grafik İşlem Birimi) üzerinde çalışabilir. Varsayılan olarak FlashAttention gerektirmez, bu nedenle çoğu GPU sisteminde FlashAttention olmadan çalışabilir. Ancak, FlashAttention'ı etkinleştirmek, yavaşlamaları önlemeye, bellek kullanımını azaltmaya ve işlem verimliliğini artırmaya yardımcı olduğu için özellikle büyük veri kümeleri veya yüksek çözünürlüklü görüntülerle çalışırken yararlı olabilir. 

FlashAttention'ı kullanmak için aşağıdaki serilerden birine ait bir NVIDIA GPU 'ya ihtiyacınız olacaktır: Turing (T4, Quadro RTX), Ampere (RTX 30 serisi, A30, A40, A100), Ada Lovelace (RTX 40 serisi) veya Hopper (H100, H200).

Kullanılabilirlik ve erişilebilirlik göz önünde bulundurularak, Ultralytics Python paketi henüz FlashAttention çıkarımını desteklemiyor, çünkü kurulumu teknik olarak oldukça karmaşık olabilir. YOLO12'yi kullanmaya başlama ve performansını optimize etme hakkında daha fazla bilgi edinmek için resmi Ultralytics belgelerine göz atın.

Önemli çıkarımlar

Bilgisayarlı görü ilerledikçe, modeller daha hassas ve verimli hale geliyor. YOLO12, nesne algılama, örnek segmentasyonu ve görüntü sınıflandırma gibi bilgisayarla görme görevlerini dikkat merkezli işleme ve FlashAttention ile geliştirerek bellek kullanımını optimize ederken doğruluğu artırır.

Aynı zamanda, bilgisayarla görme her zamankinden daha erişilebilirdir. Ultralytics Python paketi aracılığıyla kullanımı kolay olan YOLO12, hızdan ziyade doğruluğa odaklanmasıyla hassasiyetin önemli olduğu tıbbi görüntüleme, endüstriyel denetimler ve robotik uygulamaları için çok uygundur.

Yapay zekayı merak mı ediyorsunuz? GitHub depomuzu ziyaret edin ve topluluğumuzla etkileşime geçin. Çözüm sayfalarımızda sürücüsüz araçlarda yapay zeka ve tarımda bilgisayarla görme gibi sektörlerdeki yenilikleri keşfedin. Lisanslama seçeneklerimize göz atın ve Vision AI projelerinizi hayata geçirin. 🚀

Facebook logosuTwitter logosuLinkedIn logosuKopya-bağlantı sembolü

Bu kategoride daha fazlasını okuyun

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın