Yeşil çek
Panoya kopyalanan bağlantı

Üretken yapay zeka bilgisayarla görmenin önündeki yolu değiştiriyor

YOLO Vision 2024'teki bir panel konuşmasından ilginç içgörüleri keşfedin. Üretken yapay zekanın gerçek zamanlı Vision AI modelleri için önümüzdeki yolu nasıl şekillendirdiğini keşfedin.

Üretken yapay zeka, mevcut verilerden kalıplar öğrenerek görüntü, metin veya ses gibi yeni içerikler oluşturan bir yapay zeka (AI) dalıdır. Son gelişmeler sayesinde, artık genellikle insan yaratıcılığını taklit eden son derece gerçekçi içerikler üretmek için kullanılabilmektedir.

Bununla birlikte, üretken yapay zekanın etkisi sadece içerik oluşturmanın ötesine geçiyor. Ultralytics YOLO modelleri gibi gerçek zamanlı bilgisayarla görme modelleri gelişmeye devam ettikçe, üretken yapay zeka da görsel verilerin nasıl işlendiğini ve artırıldığını yeniden tanımlayarak gerçek dünya senaryolarında yenilikçi uygulamaların önünü açıyor. 

Bu yeni teknolojik değişim, Ultralytics tarafından her yıl düzenlenen hibrit bir etkinlik olanYOLO Vision 2024'te (YV24) ilginç bir sohbet konusu oldu. YV24'te yapay zeka meraklıları ve endüstri liderleri bilgisayarla görme alanındaki en son gelişmeleri tartışmak üzere bir araya geldi. Etkinlik inovasyon, verimlilik ve gerçek zamanlı yapay zeka çözümlerinin geleceğine odaklandı.

Etkinliğin en önemli noktalarından biri, Üretken Yapay Zeka ÇağındaYOLO konulu bir panel konuşmasıydı. Panelde Ultralytics Kurucusu ve CEO'su Glenn Jocher, Ultralytics Kıdemli Makine Öğrenimi Mühendisi Jing Qiu ve Tsinghua Üniversitesi'nden Ao Wang yer aldı. Panelde, üretken yapay zekanın bilgisayarla görmeyi nasıl etkilediği ve pratik yapay zeka modelleri oluşturmanın zorlukları tartışıldı.

Bu makalede, tartışmalarındaki temel içgörüleri tekrar gözden geçireceğiz ve üretken yapay zekanın Vision AI'yı nasıl dönüştürdüğüne daha yakından bakacağız.

Ultralytics YOLO modellerinin geliştirilmesi

Glenn Jocher'ın yanı sıra birçok yetenekli mühendis Ultralytics YOLO modellerinin geliştirilmesinde hayati bir rol oynamıştır. Bunlardan biri olan Jing Qiu, YOLO ile beklenmedik başlangıcını anlattı. Yapay zekaya olan tutkusunun üniversite yıllarında başladığını açıkladı. Bu alanı keşfetmek ve öğrenmek için önemli miktarda zaman harcadı. Jing Qiu, GitHub'da Glenn Jocher ile nasıl bağlantı kurduğunu ve çeşitli yapay zeka projelerine nasıl dahil olduğunu hatırladı.

Jing Qiu'nun söylediklerine ek olarak Glenn Jocher GitHub'ı "paylaşmanın inanılmaz bir yolu - hiç tanımadığınız insanların birbirlerine yardım etmek için bir araya geldiği, birbirlerinin çalışmalarına katkıda bulunduğu bir yer. Bu harika bir topluluk ve yapay zekaya başlamak için gerçekten harika bir yol."

Şekil 1. Glenn Jocher ve Jing Qiu YV24'te sahnede konuşurken.

Jing Qiu'nun yapay zekaya olan ilgisi ve Ultralytics YOLOv5 modelin iyileştirilmesine yardımcı oldu. Daha sonra, Türkiye'de Ultralytics YOLOv8Bu da daha fazla iyileştirme getirdi. Kendisi bunu inanılmaz bir yolculuk olarak tanımlıyor. Bugün, Jing Qiu aşağıdaki gibi modeller üzerinde çalışmaya ve geliştirmeye devam ediyor Ultralytics YOLO11

YOLOv10: Gerçek dünya performansı için optimize edildi

Panel konuşmasına Çin'den uzaktan katılan Ao Wang, kendisini doktora öğrencisi olarak tanıttı. Başlangıçta yazılım mühendisliği eğitimi almış, ancak yapay zekaya olan tutkusu onu bilgisayarla görme ve derin öğrenmeye yöneltmiş.

Ünlü YOLO modeliyle ilk karşılaşması, çeşitli yapay zeka teknikleri ve modellerini denerken oldu. Hızından ve doğruluğundan etkilenmiş ve bu da ona nesne algılama gibi bilgisayarla görme görevlerine daha derinlemesine dalma konusunda ilham vermiştir. Yakın zamanda Ao Wang, YOLO modelinin yeni bir sürümü olan YOLOv10'a katkıda bulundu. Araştırması, modeli daha hızlı ve daha doğru olacak şekilde optimize etmeye odaklandı.

Üretken Yapay Zeka ile Görme Yapay Zekası arasındaki temel fark

Ardından, panel üretici YZ'yi tartışmaya başladı ve Jing Qiu üretici YZ ile Görme YZ'sinin çok farklı amaçları olduğuna dikkat çekti. Üretken yapay zeka metin, görüntü ve video gibi şeyler yaratır veya üretirken, Vision AI zaten var olanı, özellikle de görüntüleri analiz eder.

Glenn Jocher boyutun da büyük bir fark olduğunu vurguladı. Üretken yapay zeka modelleri çok büyüktür ve genellikle milyarlarca parametre içerir - modelin verilerden öğrenmesine yardımcı olan dahili ayarlar. Bilgisayarla görme modelleri ise çok daha küçüktür. "Elimizdeki en küçük YOLO modeli, en küçük LLM'den [Büyük Dil Modeli] yaklaşık bin kat daha küçük. Yani, üç milyara kıyasla 3 milyon parametre."

Şekil 3. YV24'te Üretken Yapay Zeka ve Görme Yapay Zekası üzerine panel tartışması.

Jing Qiu, üretken yapay zeka ile bilgisayarla görme eğitimi ve dağıtım süreçlerinin de çok farklı olduğunu sözlerine ekledi. Üretken yapay zekanın çalışması için devasa, güçlü sunuculara ihtiyaç vardır. Öte yandan, YOLO gibi modeller verimlilik için üretilmiştir ve standart donanım üzerinde eğitilebilir ve dağıtılabilir. Bu, Ultralytics YOLO modellerini gerçek dünyada kullanım için daha pratik hale getirir.

Farklı olsalar da bu iki alan iç içe geçmeye başlıyor. Glenn Jocher, Üretken Yapay Zekanın Görme Yapay Zekasına yeni gelişmeler getirerek modelleri daha akıllı ve daha verimli hale getirdiğini belirtti. 

Üretken yapay zekanın bilgisayarla görme üzerindeki etkisi

Üretken yapay zeka hızla ilerledi ve bu atılımlar bilgisayarla görme de dahil olmak üzere yapay zekanın diğer birçok alanını etkiliyor. Şimdi, panelin bu konudaki bazı büyüleyici görüşlerine göz atalım.

Donanımdaki gelişmeler yapay zeka inovasyonlarını mümkün kılıyor

Panelin başlarında Glenn Jocher, makine öğrenimi fikirlerinin uzun zamandır var olduğunu, ancak bilgisayarların bunları çalıştıracak kadar güçlü olmadığını açıkladı. Yapay zeka fikirlerini gerçeğe dönüştürmek için daha güçlü donanımlara ihtiyaç vardı.

GPU'ların (Grafik İşlem Birimleri) son 20 yılda paralel işleme yetenekleriyle yükselişi her şeyi değiştirdi. Yapay zeka modellerinin eğitimini çok daha hızlı ve verimli hale getirerek derin öğrenmenin hızlı bir şekilde gelişmesini sağladılar.

Günümüzde TPU'lar (Tensor İşleme Birimleri) ve optimize edilmiş GPU'lar gibi yapay zeka çipleri, daha büyük ve daha karmaşık modelleri işlerken daha az güç kullanmaktadır. Bu da yapay zekayı gerçek dünya uygulamalarında daha erişilebilir ve kullanışlı hale getirmiştir.

Her yeni donanım geliştirmesiyle birlikte, hem üretken yapay zeka hem de bilgisayarla görme uygulamaları daha güçlü hale geliyor. Bu gelişmeler gerçek zamanlı yapay zekayı daha hızlı, daha verimli ve daha fazla sektörde kullanıma hazır hale getiriyor.

Üretken yapay zeka nesne algılama modellerini nasıl şekillendiriyor?

Jing Qiu, üretici yapay zekanın bilgisayarla görmeyi nasıl etkilediği sorulduğunda, dönüştürücülerin - yapay zekanın bir görüntünün en önemli kısımlarına odaklanmasına yardımcı olan modeller - yapay zekanın görüntüleri anlama ve işleme şeklini değiştirdiğini söyledi. İlk büyük adım, nesne tespiti için bu yeni yaklaşımı kullanan DETR (Detection Transformer) oldu. Doğruluğu artırdı ancak bazı durumlarda yavaşlamasına neden olan performans sorunları vardı.

Bunu çözmek için araştırmacılar RT-DETR gibi hibrit modeller oluşturdu. Bu modeller, Evrişimsel Sinir Ağları (görüntülerden özellikleri otomatik olarak öğrenen ve çıkaran derin öğrenme modelleri olan CNN'ler) ile dönüştürücüleri birleştirerek hız ve doğruluğu dengeliyor. Bu yaklaşım, nesne algılamayı daha hızlı hale getirirken dönüştürücülerin avantajlarından yararlanır.

İlginç bir şekilde, YOLOv10 performansını artırmak için transformatör tabanlı dikkat katmanları (bir görüntüdeki en önemli alanları vurgulamak için bir spot ışığı gibi hareket eden ve daha az ilgili ayrıntıları göz ardı eden model parçaları) kullanır. 

Ao Wang ayrıca üretken yapay zekanın modellerin eğitilme şeklini nasıl değiştirdiğinden de bahsetti. Maskelenmiş görüntü modelleme gibi teknikler, yapay zekanın görüntülerden daha verimli bir şekilde öğrenmesine yardımcı olarak büyük, manuel olarak etiketlenmiş veri kümelerine olan ihtiyacı azaltıyor. Bu, bilgisayarla görme eğitimini daha hızlı ve daha az kaynak yoğun hale getiriyor.

Üretken Yapay Zeka ve Görme Yapay Zekasının geleceği 

Panelde tartışılan bir diğer önemli fikir de, üretken yapay zeka ve Vision yapay zekanın daha yetenekli modeller oluşturmak için nasıl bir araya gelebileceğiydi. Glenn Jocher, bu iki yaklaşımın farklı güçlü yönleri olsa da, bunları birleştirmenin yeni olasılıklara yol açabileceğini açıkladı. 

Örneğin, YOLO gibi Vision AI modelleri nesneleri tanımlamak için genellikle bir görüntüyü ızgaraya böler. Bu ızgara tabanlı yöntem, dil modellerinin hem ayrıntıları saptama hem de tanımlama becerilerini geliştirmelerine yardımcı olabilir - günümüzde birçok dil modelinin karşılaştığı bir zorluk. Özünde, bu tekniklerin birleştirilmesi, gördüklerini doğru bir şekilde algılayabilen ve net bir şekilde açıklayabilen sistemlere yol açabilir.

Şekil 4. Üretken ve Vizyonel Yapay Zekanın geleceği. Yazar tarafından resim.

Önemli çıkarımlar

Üretken Yapay Zeka ve bilgisayarlı görü birlikte ilerliyor. Üretken Yapay Zeka görüntü ve videolar oluştururken, aynı zamanda Görme Yapay Zeka modellerini daha doğru ve verimli hale getirebilecek yeni yenilikçi fikirleri masaya getirerek görüntü ve video analizini geliştiriyor. 

Bu aydınlatıcı YV24 panel konuşmasında Glenn Jocher, Jing Qiu ve Ao Wang, bu teknolojilerin geleceği nasıl şekillendirdiğine dair düşüncelerini paylaştı. Daha iyi yapay zeka donanımı ile, üretken yapay zeka ve Vision AI gelişmeye devam edecek ve daha da büyük yeniliklere yol açacaktır. Bu iki alan, günlük yaşam için daha akıllı, daha hızlı ve daha kullanışlı yapay zeka yaratmak için birlikte çalışıyor.

Vision AI hakkında daha fazla bilgi edinmek için topluluğumuza katılın ve GitHub depomuzu keşfedin. Bilgisayarla görme projelerinizi başlatmak için lisanslama seçeneklerimize göz atın. Üretimde yapay zeka veya otonom sürüşte bilgisayarla görme gibi yeniliklerle ilgileniyor musunuz? Daha fazlasını keşfetmek için çözüm sayfalarımızı ziyaret edin. 

Facebook logosuTwitter logosuLinkedIn logosuKopya-bağlantı sembolü

Bu kategoride daha fazlasını okuyun

Yapay zekanın gelecekteki
adresini birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın