Microsoft'un geliştirilmiş nesne algılama, segmentasyon ve sıfır çekim performansını büyük bir verimlilikle sunan görsel dil modeli Florence-2 ile tanışın.
Haziran 2024'te Microsoft , nesne algılama, segmentasyon, görüntü altyazısı ve topraklama gibi çok çeşitli görevleri yerine getirmek üzere tasarlanmış çok modlu bir görsel dil modeli (VLM) olan Florence-2'yi tanıttı. Florence-2, sıfır atış performansı için yeni bir ölçüt belirliyor, yani önceden özel bir eğitim olmadan görevleri yerine getirebiliyor ve diğer son teknoloji görsel dil modellerinden daha küçük bir model boyutunu artırıyor.
Başka bir modelden daha fazlası olan Florence-2'nin çok yönlülüğü ve gelişmiş performansı, doğruluğu artırarak ve kapsamlı eğitim ihtiyacını azaltarak çeşitli sektörleri önemli ölçüde etkileme potansiyeline sahiptir. Bu makalede Florence-2'nin yenilikçi özelliklerini inceleyecek, performansını diğer VLM'lerle karşılaştıracak ve potansiyel uygulamalarını tartışacağız.
Florence-2, tek bir birleşik çerçeve içinde çeşitli görevleri yerine getirebilir. Modelin etkileyici yetenekleri kısmen FLD-5B adı verilen devasa eğitim veri seti sayesindedir. FLD-5B, 126 milyon görüntüde 5,4 milyar ek açıklama içeriyor. Bu kapsamlı veri kümesi, Florence-2'nin çok çeşitli görme görevlerini yüksek doğruluk ve verimlilikle yerine getirmesi için gereken yeteneklere sahip olmasını sağlamak üzere özel olarak oluşturulmuştur.
İşte Florence-2'nin desteklediği görevlere daha yakından bir bakış:
Model hem metin tabanlı hem de bölge tabanlı görevleri desteklemektedir. Bir görüntünün belirli bölgelerini içeren görevler için modelin kelime dağarcığına özel konum belirteçleri eklenir. Bu belirteçler modelin nesnelerin etrafındaki dikdörtgenler (kutu gösterimi), dört kenarlı şekiller (dörtlü kutu gösterimi) ve çok kenarlı şekiller (çokgen gösterimi) gibi farklı şekilleri anlamasına yardımcı olur. Model, tahminlerini doğru cevaplarla karşılaştırarak ve iç parametrelerini buna göre ayarlayarak öğrenmesine yardımcı olan çapraz entropi kaybı adı verilen bir yöntem kullanılarak eğitilir.
FLD-5B veri seti farklı ek açıklama türleri içermektedir: metin açıklamaları, bölge ve metin çiftleri ve metin, ifade ve bölge kombinasyonları. Veri toplama ve açıklama içeren iki aşamalı bir süreçle oluşturulmuştur. Görüntüler ImageNet-22k, Object 365, Open Images, Conceptual Captions ve LAION gibi popüler veri kümelerinden temin edilmiştir. FLD-5B veri kümesindeki ek açıklamalar çoğunlukla sentetiktir, yani manuel olarak etiketlenmek yerine otomatik olarak oluşturulmuştur.
Başlangıçta, nesne algılama veya segmentasyon gibi belirli görevlerde yetenekli uzman modeller bu açıklamaları oluşturdu. Ardından, ek açıklamaların ayrıntılı ve doğru olduğundan emin olmak için bir filtreleme ve geliştirme süreci kullanıldı. Her türlü gürültü giderildikten sonra veri kümesi, Florence-2'nin çıktılarının ek açıklamaları sürekli olarak güncellemek ve iyileştirmek için kullanıldığı yinelemeli iyileştirme işleminden geçirildi.
Florence-2'nin model mimarisi diziden diziye öğrenme yaklaşımını takip eder. Bu, modelin bir girdi dizisini (metin istemi içeren bir görüntü gibi) işlediği ve adım adım bir şekilde bir çıktı dizisi (bir açıklama veya etiket gibi) ürettiği anlamına gelir. Sıradan sıraya çerçevesinde, her görev bir çeviri problemi olarak ele alınır: model bir girdi görüntüsü ve göreve özgü bir istem alır ve ilgili çıktıyı üretir.
Model mimarisinin temelinde, bir görüntü kodlayıcı ile çok modlu bir kodlayıcı-kod çözücüyü birleştiren çok modlu bir kodlayıcı-kod çözücü dönüştürücü bulunmaktadır. DaViT (Data-efficient Vision Transformer) adı verilen görüntü kodlayıcı, giriş görüntülerini görsel belirteç katıştırmalarına dönüştürerek işler - hem uzamsal (nesnelerin nerede olduğu) hem de anlamsal (nesnelerin ne olduğu) bilgileri yakalayan görüntünün kompakt temsilleri. Bu görsel belirteçler daha sonra metin katıştırmalarıyla (metnin temsilleri) birleştirilerek modelin metinsel ve görsel verileri sorunsuz bir şekilde birleştirmesine olanak tanır.
Florence-2, etkileyici sıfır atış yetenekleri sayesinde diğer görsel dil modellerinden ayrılır. Çeşitli görevlere uyum sağlamak için kapsamlı ince ayarlara ihtiyaç duyan PaliGemma gibi modellerin aksine, Florence-2 kutudan çıkar çıkmaz iyi çalışır. Ayrıca Florence-2, GPT-4V ve Flamingo gibi genellikle çok daha fazla parametreye sahip olan ancak Florence-2'nin performansıyla her zaman eşleşmeyen daha büyük modellerle rekabet edebiliyor. Örneğin, Florence-2, Kosmos-2'nin iki katından fazla parametreye sahip olmasına rağmen Kosmos-2'den daha iyi sıfır atış sonuçları elde etmektedir.
Kıyaslama testlerinde Florence-2, COCO altyazı ve referans ifade anlama gibi görevlerde kayda değer performans göstermiştir. COCO veri kümesinde nesne algılama ve segmentasyon görevlerinde PolyFormer ve UNINEXT gibi modellerden daha iyi performans göstermiştir. Hem performansın hem de kaynak verimliliğinin çok önemli olduğu gerçek dünya uygulamaları için oldukça rekabetçi bir seçimdir.
Florence-2 eğlence, erişilebilirlik, eğitim vb. gibi birçok farklı sektörde kullanılabilir. Daha iyi anlamak için birkaç örnek üzerinden gidelim.
Bir yayın platformunda ne izleyeceğinize karar vermeye çalışırken, seçim yapmanıza yardımcı olması için bir filmin özetini okuyabilirsiniz. Peki ya platform film afişinin ayrıntılı bir açıklamasını da sunabilseydi? Florence-2, görüntüler için açıklayıcı metin oluşturan görüntü altyazılama yoluyla bunu mümkün kılabilir. Florence-2, film afişlerinin ayrıntılı açıklamalarını oluşturarak yayın platformlarını görme engelli kullanıcılar için daha kapsayıcı hale getirebilir. Florence-2, bir posterin karakterler, manzara ve metin gibi görsel unsurlarını analiz ederek posterin içeriğini ve ruh halini aktaran ayrıntılı açıklamalar oluşturabilir. Aşağıdaki resim, Florence-2'nin açıklamasında sağlayabileceği ayrıntı düzeyini göstermektedir.
Görüntü altyazısının yararlı olabileceği diğer bazı örnekler aşağıda verilmiştir:
Florence-2 mutfak deneyimlerini zenginleştirmek için de kullanılabilir. Örneğin, çevrimiçi bir yemek kitabı Florence-2'yi karmaşık bir tarif görüntüsünün parçalarını görsel olarak topraklamak ve etiketlemek için kullanabilir. Görsel topraklama, görüntünün belirli kısımlarını ilgili açıklayıcı metne bağlayarak burada yardımcı olur. Her bir malzeme ve adım doğru bir şekilde etiketlenip açıklanabilir, böylece ev aşçılarının tarifi takip etmesi ve her bir bileşenin yemekteki rolünü anlaması kolaylaşır.
Bir belge içindeki belirli alanlardan metin çıkarmaya odaklanan bölge tabanlı işleme özelliğine sahip OCR, muhasebe gibi alanlar söz konusu olduğunda kullanışlı olabilir. Finansal belgelerin belirlenmiş alanları analiz edilerek işlem ayrıntıları, hesap numaraları ve son ödeme tarihleri gibi önemli bilgiler otomatik olarak çıkarılabilir. Manuel veri girişi ihtiyacını azaltarak hataları en aza indirir ve işlem sürelerini hızlandırır. Finans kurumları bu sistemi fatura işleme, makbuz mutabakatı ve çek takası gibi görevleri kolaylaştırmak için kullanabilir, böylece daha hızlı işlemler ve daha iyi müşteri hizmetleri sağlanabilir.
Bir görüntünün odaklanmış analiz ve ayrıntılı inceleme için anlamlı parçalara bölünmesini içeren bölge tabanlı segmentasyon, çeşitli süreçlerde hassasiyeti ve verimliliği artıran endüstriyel uygulamaları destekleyebilir. Bir görüntüdeki belirli alanlara odaklanan bu teknoloji, bileşenlerin ve ürünlerin ayrıntılı olarak incelenmesine ve analiz edilmesine olanak tanır. Kalite kontrol açısından, çatlaklar veya yanlış hizalamalar gibi malzemelerdeki kusurları veya tutarsızlıkları belirleyerek yalnızca en kaliteli ürünlerin pazara ulaşmasını sağlayabilir.
Ayrıca robotik kolları belirli parçalara yönlendirerek ve bileşenlerin yerleştirilmesini ve montajını optimize ederek otomatik montaj hatlarını iyileştirir. Benzer şekilde, envanter yönetiminde, malların durumunu ve konumunu izlemeye ve izlemeye yardımcı olarak daha verimli lojistik ve daha az arıza süresi sağlar. Genel olarak, bölge tabanlı segmentasyon doğruluğu ve üretkenliği artırarak endüstriyel ortamlarda maliyet tasarrufu ve daha yüksek ürün kalitesi sağlar.
Yapay zeka modellerinin yüksek performansı korurken daha hafif hale geldiği bir trend görmeye başlıyoruz. Florence-2, görsel dil modelleri açısından ileriye doğru atılmış büyük bir adıma işaret ediyor. Nesne algılama, segmentasyon, görüntü altyazılama ve topraklama gibi çeşitli görevleri etkileyici sıfır çekim performansıyla yerine getirebilir. Florence-2, daha küçük boyutuna rağmen verimli ve çok işlevlidir; bu da onu farklı sektörlerdeki uygulamalar açısından son derece kullanışlı kılmaktadır. Florence-2 gibi modeller masaya daha fazla olasılık getiriyor ve yapay zeka yenilikleri için potansiyeli genişletiyor.
GitHub depomuzu ziyaret ederek ve topluluğumuza katılarak yapay zeka hakkında daha fazlasını keşfedin. Üretim ve tarımdaki yapay zeka uygulamaları hakkında bilgi edinmek için çözüm sayfalarımıza göz atın. 🚀
Makine öğreniminin geleceği ile yolculuğunuza başlayın