Florence-2: Microsoft | Ultralytics tarafından Zero-Shot Vision AI

Microsoft , Haziran 2024'te nesne algılama, segmentasyon, görüntü altyazısı oluşturma ve topraklama gibi çok çeşitli görevleri yerine getirmek üzere tasarlanmış çok modlu bir görsel dil modeli (VLM) olan Florence-2'yi tanıttı. Florence-2, sıfır atış performansı için yeni bir ölçüt belirliyor, yani önceden özel bir eğitim almadan görevleri yerine getirebiliyor ve diğer son teknoloji görsel dil modellerinden daha küçük bir model boyutunu artırıyor.

Florence-2, sadece başka bir modelden daha fazlası; çok yönlülüğü ve gelişmiş performansıyla, doğruluğu artırarak ve kapsamlı eğitim ihtiyacını azaltarak çeşitli sektörleri önemli ölçüde etkileme potansiyeline sahip. Bu makalede, Florence-2'nin yenilikçi özelliklerini keşfedecek, performansını diğer VLM'lerle karşılaştıracak ve potansiyel uygulamalarını tartışacağız.

Florence-2 nedir?

Florence-2, tek bir birleşik çerçeve içinde çeşitli görevleri yerine getirebilir. Modelin etkileyici yetenekleri, kısmen FLD-5B adlı devasa eğitim veri kümesine borçludur. FLD-5B, 126 milyon görüntüde 5,4 milyar açıklama içerir. Bu kapsamlı veri kümesi, özellikle Florence-2'yi çok çeşitli görme görevlerini yüksek doğruluk ve verimlilikle yerine getirmek için gereken yeteneklerle donatmak amacıyla oluşturulmuştur.

İşte Florence-2'nin desteklediği görevlere daha yakından bir bakış:

Nesne Algılama: Görüntülerdeki nesneleri yüksek hassasiyetle tanımlayabilir ve konumlandırabilir.
‍
Segmentasyon: Bu görev, daha kolay analiz ve yorumlama için bir görüntüyü anlamlı segmentlere ayırmayı içerir.
‍
Görüntü Alt Yazılandırması: Florence-2, bağlam ve ayrıntı sağlayan görüntüler için açıklayıcı alt yazılar oluşturabilir.
‍
Görsel Temellendirme (Visual Grounding): Model, bir başlık içindeki belirli ifadeleri veya kelimeleri, görüntüdeki karşılık gelen bölgelerle ilişkilendirebilir.
‍
Zero-shot Performansı: Belirli bir eğitim olmadan görevleri gerçekleştirebilir.

__wf_reserved_inherit — Şekil 1. Florence-2'nin Nasıl Eğitildiğini Anlamak.

‍

Model hem metin tabanlı hem de bölge tabanlı görevleri destekler. Bir görüntünün belirli bölgelerini içeren görevler için modelin sözlüğüne özel konum belirteçleri eklenir. Bu belirteçler, modelin nesnelerin etrafındaki dikdörtgenler (kutu gösterimi), dört kenarlı şekiller (dörtgen kutu gösterimi) ve çok kenarlı şekiller (çokgen gösterimi) gibi farklı şekilleri anlamasına yardımcı olur. Model, tahminlerini doğru cevaplarla karşılaştırarak ve iç parametrelerini buna göre ayarlayarak öğrenmesine yardımcı olan çapraz entropi kaybı adı verilen bir yöntem kullanılarak eğitilir.

FLD-5B veri kümesini oluşturma

FLD-5B veri kümesi farklı türde ek açıklamalar içermektedir: metin açıklamaları, bölge ve metin çiftleri ve metin, ifade ve bölge kombinasyonları. Veri toplama ve açıklama içeren iki aşamalı bir süreçle oluşturulmuştur. Görüntüler ImageNet, Object 365, Open Images, Conceptual Captions ve LAION gibi popüler veri kümelerinden temin edilmiştir. FLD-5B veri kümesindeki ek açıklamalar çoğunlukla sentetiktir, yani manuel olarak etiketlenmek yerine otomatik olarak oluşturulmuştur.

‍

Başlangıçta, nesne algılama veya segmentasyon gibi belirli görevlerde yetenekli uzman modeller bu ek açıklamaları oluşturdu. Ardından, ek açıklamaların ayrıntılı ve doğru olduğundan emin olmak için bir filtreleme ve iyileştirme süreci kullanıldı. Herhangi bir gürültü giderildikten sonra, veri seti yinelemeli bir iyileştirmeden geçti ve burada Florence-2'nin çıktıları, ek açıklamaları sürekli olarak güncellemek ve iyileştirmek için kullanıldı.

Florence-2'nin model mimarisini anlama

Florence-2'nin model mimarisi, dizi-dizi öğrenme yaklaşımını izler. Bu, modelin bir girdi dizisini (metin istemi içeren bir görüntü gibi) işlemesi ve adım adım bir çıktı dizisi (bir açıklama veya etiket gibi) oluşturması anlamına gelir. Dizi-dizi çerçevesinde, her görev bir çeviri problemi olarak ele alınır: model bir girdi görüntüsü ve göreve özel bir istem alır ve karşılık gelen çıktıyı oluşturur.

‍

Model mimarisinin temelinde, bir görüntü kodlayıcı ve çok modlu bir kodlayıcı-çözücüyü birleştiren çok modlu bir kodlayıcı-çözücü dönüştürücü bulunur. DaViT (Veri-Etkin Görüntü Dönüştürücü) olarak adlandırılan görüntü kodlayıcı, girdi görüntülerini görsel belirteç gömülerine dönüştürerek işler. Bu gömüler, görüntünün hem uzamsal (nesnelerin nerede olduğu) hem de semantik (nesnelerin ne olduğu) bilgilerini yakalayan kompakt temsilleridir. Bu görsel belirteçler daha sonra metin gömüleriyle (metnin temsilleri) birleştirilerek modelin metinsel ve görsel verileri sorunsuz bir şekilde birleştirmesine olanak tanır.

Florence-2'yi diğer VLM'lerle karşılaştırma

Florence-2, etkileyici sıfır atış yetenekleri nedeniyle diğer görsel dil modellerinden ayrılır. Çeşitli görevlere uyum sağlamak için kapsamlı ince ayara güvenen PaliGemma gibi modellerin aksine, Florence-2 kutudan çıkar çıkmaz iyi çalışır. Ayrıca, Florence-2, genellikle çok daha fazla parametreye sahip olan ancak her zaman Florence-2'nin performansıyla eşleşmeyen GPT-4V ve Flamingo gibi daha büyük modellerle rekabet edebilir. Örneğin, Florence-2, Kosmos-2'nin parametre sayısının iki katından fazla olmasına rağmen, Kosmos-2'den daha iyi sıfır atış sonuçları elde eder.

Kıyaslama testlerinde Florence-2, COCO altyazı ve referans ifade anlama gibi görevlerde kayda değer performans göstermiştir. COCO veri kümesinde nesne algılama ve segmentasyon görevlerinde PolyFormer ve UNINEXT gibi modellerden daha iyi performans göstermiştir. Hem performansın hem de kaynak verimliliğinin çok önemli olduğu gerçek dünya uygulamaları için oldukça rekabetçi bir seçimdir.

Florence-2'nin Uygulamaları

Florence-2, eğlence, erişilebilirlik, eğitim vb. gibi birçok farklı sektörde kullanılabilir. Daha iyi anlamak için birkaç örneğe göz atalım.

Görüntü Alt Yazılamanın Uygulamaları

Bir yayın platformunda ne izleyeceğinize karar vermeye çalışırken, seçim yapmanıza yardımcı olması için bir filmin özetini okuyabilirsiniz. Platformun film posterinin ayrıntılı bir açıklamasını da sağlayabileceğini hayal edin? Florence-2, görüntüler için açıklayıcı metinler oluşturan görüntü başlığı oluşturma yoluyla bunu mümkün kılabilir. Florence-2, film posterlerinin ayrıntılı açıklamalarını oluşturarak yayın platformlarını görme engelli kullanıcılar için daha kapsayıcı hale getirebilir. Bir posterin karakterler, manzara ve metin gibi görsel öğelerini analiz ederek Florence-2, posterin içeriğini ve ruh halini aktaran ayrıntılı açıklamalar oluşturabilir. Aşağıdaki resim, Florence-2'nin açıklamasında sağlayabileceği ayrıntı düzeyini göstermektedir.

‍

İşte görüntü açıklamalandırmanın yardımcı olabileceği diğer örneklerden bazıları:

E-ticaret: Görüntü açıklaması, müşterilerin ürün özelliklerini ve ayrıntılarını daha net anlamalarına yardımcı olarak, ürün görüntülerinin ayrıntılı açıklamalarını sağlayabilir.
‍
Seyahat ve Turizm: Seyahat rehberlerinde ve uygulamalarında turistik yerlerin ve cazibe merkezlerinin ayrıntılı açıklamalarını sağlayabilir.
‍
Eğitim: Görüntü altyazıları, eğitim amaçlı görüntüleri ve diyagramları etiketleyip açıklayarak öğretme ve öğrenmeye yardımcı olabilir.
‍
Gayrimenkul: Potansiyel alıcılar için özellikleri ve olanakları vurgulayan ayrıntılı mülk görüntü açıklamaları sağlayabilir.

Yemek pişirirken görsel dayanak kullanma

Florence-2, mutfak deneyimlerini zenginleştirmek için de kullanılabilir. Örneğin, çevrimiçi bir yemek kitabı, karmaşık bir tarif görüntüsünün bölümlerini görsel olarak temellendirmek ve etiketlemek için Florence-2'yi kullanabilir. Görsel temellendirme, görüntünün belirli bölümlerini karşılık gelen açıklayıcı metne bağlayarak burada yardımcı olur. Her bir bileşen ve adım doğru bir şekilde etiketlenebilir ve açıklanabilir, bu da ev aşçılarının tarifi takip etmesini ve her bir bileşenin yemekteki rolünü anlamasını kolaylaştırır.

‍

Finansal belgeler için bölge tabanlı OCR

Bir belgedeki belirli alanlardan metin çıkarmaya odaklanan bölge tabanlı işlemeye sahip OCR, muhasebe gibi alanlarda kullanışlı olabilir. Finansal belgelerin belirlenmiş alanları, işlem detayları, hesap numaraları ve son tarihler gibi önemli bilgileri otomatik olarak çıkarmak için analiz edilebilir. Manuel veri girişine olan ihtiyacı azaltarak hataları en aza indirir ve işlem sürelerini hızlandırır. Finans kuruluşları, fatura işleme, makbuz mutabakatı ve çek takası gibi görevleri kolaylaştırmak, daha hızlı işlemler ve daha iyi müşteri hizmeti sağlamak için kullanabilir.

‍

Endüstriyel uygulamalarda bölge tabanlı segmentasyon

Odaklı analiz ve detaylı inceleme için bir görüntüyü anlamlı parçalara ayırmayı içeren bölge tabanlı segmentasyon, çeşitli süreçlerde hassasiyeti ve verimliliği artıran endüstriyel uygulamaları destekleyebilir. Bir görüntüdeki belirli alanlara odaklanarak, bu teknoloji bileşenlerin ve ürünlerin detaylı bir şekilde incelenmesini ve analiz edilmesini sağlar. Kalite kontrolü açısından, yalnızca en kaliteli ürünlerin pazara ulaşmasını sağlayarak, malzemelerdeki çatlaklar veya yanlış hizalamalar gibi kusurları veya tutarsızlıkları belirleyebilir.

‍

Ayrıca robotik kolları belirli parçalara yönlendirerek ve bileşenlerin yerleştirilmesini ve montajını optimize ederek otomatik montaj hatlarını iyileştirir. Benzer şekilde, envanter yönetiminde, malların durumunu ve konumunu track ve izlemeye yardımcı olarak daha verimli lojistik ve daha az arıza süresi sağlar. Genel olarak, bölge tabanlı segmentasyon doğruluğu ve üretkenliği artırarak endüstriyel ortamlarda maliyet tasarrufu ve daha yüksek ürün kalitesi sağlar.

Önemli çıkarımlar

Yapay zeka modellerinin yüksek performansı korurken daha hafif hale geldiği bir eğilim görmeye başlıyoruz. Florence-2, görsel dil modelleri açısından önemli bir adımı işaret ediyor. Nesne algılama, segmentasyon, görüntü başlığı oluşturma ve etkileyici sıfır atış performansı ile topraklama gibi çeşitli görevleri yerine getirebilir. Daha küçük boyutuna rağmen, Florence-2 verimli ve çok işlevlidir, bu da onu farklı endüstrilerdeki uygulamalar açısından son derece kullanışlı kılar. Florence-2 gibi modeller, yapay zeka yenilikleri için potansiyeli genişleterek masaya daha fazla olasılık getiriyor.

GitHub depomuzu ziyaret ederek ve topluluğumuza katılarak yapay zeka hakkında daha fazla bilgi edinin. Üretim ve tarım alanlarındaki yapay zeka uygulamaları hakkında bilgi edinmek için çözümler sayfalarımıza göz atın. 🚀

Florence-2: Microsoft'un en son vizyon dili modeli

Florence-2 nedir?

FLD-5B veri kümesini oluşturma

Florence-2'nin model mimarisini anlama

Florence-2'yi diğer VLM'lerle karşılaştırma

Florence-2'nin Uygulamaları

Görüntü Alt Yazılamanın Uygulamaları

Yemek pişirirken görsel dayanak kullanma

Finansal belgeler için bölge tabanlı OCR

Endüstriyel uygulamalarda bölge tabanlı segmentasyon

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Florence-2: Microsoft'un en son vizyon dili modeli

Florence-2 nedir?

FLD-5B veri kümesini oluşturma

Florence-2'nin model mimarisini anlama

Florence-2'yi diğer VLM'lerle karşılaştırma

Florence-2'nin Uygulamaları

Görüntü Alt Yazılamanın Uygulamaları

Yemek pişirirken görsel dayanak kullanma

Finansal belgeler için bölge tabanlı OCR

Endüstriyel uygulamalarda bölge tabanlı segmentasyon

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini birlikte inşa edelim!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!