En yeni bilgisayarla görme modeli YOLO12'yi keşfedin! Dikkat merkezli mimarisi ve FlashAttention teknolojisinin sektörler genelinde nesne algılama görevlerini nasıl geliştirdiğini öğrenin
Bilgisayarla görme, makinelerin görüntüleri ve videoları anlamasına yardımcı olan bir yapay zeka (AI) dalıdır. İnanılmaz bir hızla ilerleyen bir alandır çünkü YZ araştırmacıları ve geliştiricileri sürekli olarak sınırları zorlamaktadır. YZ topluluğu her zaman modelleri daha hızlı, daha akıllı ve daha verimli hale getirmeyi hedeflemektedir. En son atılımlardan biri, 18 Şubat 2025'te piyasaya sürülen YOLO (You Only Look Once) model serisinin en yeni üyesi YOLO 'dir.
YOLO12, Buffalo Üniversitesi, SUNY (New York Eyalet Üniversitesi) ve Çin Bilimler Akademisi Üniversitesi'nden araştırmacılar tarafından geliştirilmiştir. Benzersiz yeni bir yaklaşımla YOLO12, modelin her şeyi eşit olarak işlemek yerine bir görüntünün en önemli kısımlarına odaklanmasını sağlayan dikkat mekanizmalarını tanıtıyor.
Ayrıca, daha az bellek kullanırken işlemeyi hızlandıran bir teknik olan FlashAttention ve insanların doğal olarak merkezi nesnelere odaklanma şeklini taklit etmek için tasarlanmış bir alan dikkat mekanizmasına sahiptir.
Bu iyileştirmeler YOLO12n'yi YOLOv10n'den %2,1 ve YOLO12m'yi YOLO11m'den %1,0 daha doğru hale getirmektedir. Ancak bunun bir bedeli var: YOLO12n, YOLOv10n'den %9 daha yavaş ve YOLO12m, YOLO11m'den %3 daha yavaş.
Bu makalede, YOLO12'yi farklı kılan özellikleri, önceki sürümlerle karşılaştırmasını ve nerelerde uygulanabileceğini inceleyeceğiz.
YOLO model serisi, gerçek zamanlı nesne algılama için tasarlanmış bir bilgisayarla görme modelleri koleksiyonudur, yani görüntü ve videolardaki nesneleri hızlı bir şekilde tanımlayabilir ve bulabilirler. Zaman içinde her versiyon hız, doğruluk ve verimlilik açısından gelişmiştir.
Mesela, Ultralytics YOLOv52020'de piyasaya sürüldü, özel eğitim ve dağıtımı hızlı ve kolay olduğu için yaygın olarak kullanılmaya başlandı. Sonra görüşürüz, Ultralytics YOLOv8 örnek segmentasyonu ve nesne izleme gibi bilgisayarla görme görevleri için ek destek sunarak bunu geliştirdi.
Daha yakın zamanda, Ultralytics YOLO11 hız ve doğruluk arasındaki dengeyi korurken gerçek zamanlı işlemeyi geliştirmeye odaklanmıştır. Örneğin, YOLO11m, YOLOv8m'den %22 daha az parametreye sahip olmasına rağmen, nesne algılama modellerini değerlendirmek için yaygın olarak kullanılan bir ölçüt olan COCO veri kümesinde daha iyi algılama performansı sunmuştur.
Bu gelişmeleri temel alan YOLO12, görsel bilgileri işleme biçiminde bir değişiklik getiriyor. Bir görüntünün tüm bölümlerine eşit muamele etmek yerine, en ilgili alanlara öncelik vererek algılama doğruluğunu artırıyor. Basitçe söylemek gerekirse, YOLO12 daha hassas olmayı hedeflerken önceki iyileştirmeleri temel alıyor.
YOLO12, gerçek zamanlı işleme hızlarını korurken bilgisayarla görme görevlerini geliştiren çeşitli iyileştirmeler sunar. İşte YOLO12'nin temel özelliklerine genel bir bakış:
Bu özelliklerin gerçek hayatta nasıl çalıştığını anlamak için bir alışveriş merkezini düşünün. YOLO12 alışveriş yapanların izlenmesine, saksı bitkileri veya promosyon tabelaları gibi mağaza dekorasyonlarının belirlenmesine ve yanlış yerleştirilmiş veya terk edilmiş ürünlerin tespit edilmesine yardımcı olabilir.
Dikkat merkezli mimarisi en önemli ayrıntılara odaklanmasına yardımcı olurken, FlashAttention sistemi aşırı yüklemeden her şeyi hızlı bir şekilde işlemesini sağlar. Bu, alışveriş merkezi operatörlerinin güvenliği artırmasını, mağaza düzenlerini organize etmesini ve genel alışveriş deneyimini geliştirmesini kolaylaştırır.
Bununla birlikte, YOLO12 dikkate alınması gereken bazı sınırlamalarla birlikte gelir:
YOLO12'nin her biri farklı ihtiyaçlar için optimize edilmiş birden fazla çeşidi bulunmaktadır. Daha küçük versiyonlar (nano ve küçük) hız ve verimliliğe öncelik vererek mobil cihazlar ve uç bilişim için idealdir. Orta ve büyük versiyonlar hız ve doğruluk arasında bir denge kurarken, YOLO12x (ekstra büyük) endüstriyel otomasyon, tıbbi görüntüleme ve gelişmiş gözetim sistemleri gibi yüksek hassasiyetli uygulamalar için tasarlanmıştır.
Bu varyasyonlarla YOLO12, model boyutuna bağlı olarak farklı performans seviyeleri sunar. Kıyaslama testleri, YOLO12'nin belirli varyantlarının doğruluk açısından YOLOv10 ve YOLO11 'den daha iyi performans gösterdiğini ve daha yüksek ortalama hassasiyet (mAP) elde ettiğini göstermektedir.
Ancak YOLO12m, YOLO12l ve YOLO12x gibi bazı modeller görüntüleri YOLO11'den daha yavaş işleyerek tespit doğruluğu ve hız arasında bir denge olduğunu göstermektedir. Buna rağmen YOLO12, YOLO11'den daha fazla parametre kullanmasına rağmen diğer birçok modelden daha az parametre gerektirerek verimli olmaya devam etmektedir. Bu da onu doğruluğun ham hızdan daha önemli olduğu uygulamalar için mükemmel bir seçim haline getirmektedir.
YOLO12, Ultralytics Python paketi tarafından desteklenir ve kullanımı kolaydır, bu da hem yeni başlayanlar hem de profesyoneller için erişilebilir olmasını sağlar. Kullanıcılar sadece birkaç satır kodla önceden eğitilmiş modelleri yükleyebilir, görüntüler ve videolar üzerinde çeşitli bilgisayarla görme görevlerini çalıştırabilir ve ayrıca YOLO12'yi özel veri kümeleri üzerinde eğitebilir. Ultralytics Python paketi, karmaşık kurulum adımlarına olan ihtiyacı ortadan kaldırarak süreci kolaylaştırır.
Örneğin, nesne algılama için YOLO12'yi kullanmak üzere uygulayacağınız adımlar şunlardır:
Bu adımlar, YOLO12'nin gözetim ve perakende takibinden tıbbi görüntüleme ve otonom araçlara kadar çeşitli uygulamalar için kullanımını kolaylaştırır.
YOLO12, nesne algılama, örnek segmentasyonu, görüntü sınıflandırma, poz tahmini ve yönlendirilmiş nesne algılama (OBB) desteği sayesinde çeşitli gerçek dünya uygulamalarında kullanılabilir.
Ancak daha önce de bahsettiğimiz gibi, YOLO12 modelleri hızdan ziyade doğruluğa öncelik verir, yani önceki sürümlere kıyasla görüntüleri işlemek biraz daha uzun sürer. Bu değiş tokuş, YOLO12'yi hassasiyetin gerçek zamanlı hızdan daha önemli olduğu uygulamalar için ideal hale getirir:
YOLO12'yi çalıştırmadan önce, sisteminizin gerekli gereksinimleri karşıladığından emin olmanız önemlidir.
Teknik olarak, YOLO12 herhangi bir özel GPU (Grafik İşlem Birimi) üzerinde çalışabilir. Varsayılan olarak FlashAttention gerektirmez, bu nedenle çoğu GPU sisteminde FlashAttention olmadan çalışabilir. Ancak, FlashAttention'ı etkinleştirmek, yavaşlamaları önlemeye, bellek kullanımını azaltmaya ve işlem verimliliğini artırmaya yardımcı olduğu için özellikle büyük veri kümeleri veya yüksek çözünürlüklü görüntülerle çalışırken yararlı olabilir.
FlashAttention'ı kullanmak için aşağıdaki serilerden birine ait bir NVIDIA GPU 'ya ihtiyacınız olacaktır: Turing (T4, Quadro RTX), Ampere (RTX 30 serisi, A30, A40, A100), Ada Lovelace (RTX 40 serisi) veya Hopper (H100, H200).
Kullanılabilirlik ve erişilebilirlik göz önünde bulundurularak, Ultralytics Python paketi henüz FlashAttention çıkarımını desteklemiyor, çünkü kurulumu teknik olarak oldukça karmaşık olabilir. YOLO12'yi kullanmaya başlama ve performansını optimize etme hakkında daha fazla bilgi edinmek için resmi Ultralytics belgelerine göz atın.
Bilgisayarlı görü ilerledikçe, modeller daha hassas ve verimli hale geliyor. YOLO12, nesne algılama, örnek segmentasyonu ve görüntü sınıflandırma gibi bilgisayarla görme görevlerini dikkat merkezli işleme ve FlashAttention ile geliştirerek bellek kullanımını optimize ederken doğruluğu artırır.
Aynı zamanda, bilgisayarla görme her zamankinden daha erişilebilirdir. Ultralytics Python paketi aracılığıyla kullanımı kolay olan YOLO12, hızdan ziyade doğruluğa odaklanmasıyla hassasiyetin önemli olduğu tıbbi görüntüleme, endüstriyel denetimler ve robotik uygulamaları için çok uygundur.
Yapay zekayı merak mı ediyorsunuz? GitHub depomuzu ziyaret edin ve topluluğumuzla etkileşime geçin. Çözüm sayfalarımızda sürücüsüz araçlarda yapay zeka ve tarımda bilgisayarla görme gibi sektörlerdeki yenilikleri keşfedin. Lisanslama seçeneklerimize göz atın ve Vision AI projelerinizi hayata geçirin. 🚀
Makine öğreniminin geleceği ile yolculuğunuza başlayın