Görüntü verisi artırmanın Vision AI modellerinin daha iyi öğrenmesine, doğruluğu artırmasına ve gerçek dünya koşullarında daha etkili performans göstermesine nasıl yardımcı olduğunu öğrenin.
Yapay zeka patlaması nedeniyle, fabrikalarda çalışan robotlar ve sokaklarda gezinen sürücüsüz arabalar gibi fenomenler daha sık manşetlere çıkıyor. Yapay zeka, tıbbi görüntülemeyi iyileştirmekten üretim hatlarında kalite kontrolüne yardımcı olmaya kadar makinelerin dünyayla etkileşim biçimini değiştiriyor.
Bu ilerlemenin büyük bir kısmı, makinelerin görüntüleri anlamasını ve yorumlamasını mümkün kılan bir yapay zeka dalı olan bilgisayarla görmeden geliyor. Tıpkı insanların zaman içinde nesneleri ve desenleri tanımayı öğrenmesi gibi, Vision AI modelleri de Ultralytics YOLO11 görsel anlayışlarını geliştirmek için büyük miktarda görüntü verisi üzerinde eğitilmeleri gerekir.
Ancak bu kadar büyük miktarda görsel veri toplamak her zaman kolay değildir. Bilgisayarla görme topluluğu birçok büyük veri kümesi oluşturmuş olsa da, düşük ışıkta nesneler, kısmen gizli öğeler veya farklı açılardan görüntülenen görüntüler gibi belirli varyasyonları gözden kaçırabilirler. Bu farklılıklar, yalnızca belirli koşullar üzerinde eğitilmiş bilgisayarla görme modelleri için kafa karıştırıcı olabilir.
Görüntü verisi artırma, mevcut verilere yeni varyasyonlar ekleyerek bu sorunu çözen bir tekniktir. Görüntülerde renkleri ayarlama, döndürme veya perspektifi değiştirme gibi değişiklikler yaparak veri kümesi daha çeşitli hale gelir ve Vision AI modellerinin gerçek dünya durumlarında nesneleri daha iyi tanımasına yardımcı olur.
Bu makalede, görüntü verisi artırmanın nasıl çalıştığını ve bilgisayarla görme uygulamaları üzerindeki etkisini inceleyeceğiz.
Diyelim ki kalabalıkta bir arkadaşınızı tanımaya çalışıyorsunuz, ancak güneş gözlüğü takıyor veya gölgeli bir yerde duruyor. Görünüşteki bu küçük değişikliklere rağmen yine de kim olduğunu bilirsiniz. Öte yandan, bir Vision AI modeli, farklı ortamlardaki nesneleri tanımak için eğitilmediği sürece bu tür değişikliklerle mücadele edebilir.
Görüntü verisi artırımı, binlerce yeni görüntü toplamak yerine mevcut görüntülerin değiştirilmiş versiyonlarını eğitim verilerine ekleyerek bilgisayarla görme modeli performansını artırır.
Görüntülerde yapılan çevirme, döndürme, parlaklığı ayarlama veya küçük bozulmalar ekleme gibi değişiklikler Vision AI modellerini daha geniş bir koşul yelpazesine maruz bırakır. Büyük veri kümelerine güvenmek yerine, modeller artırılmış görüntülerle daha küçük eğitim veri kümelerinden verimli bir şekilde öğrenebilir.
Bilgisayarlı görü için büyütmenin gerekli olmasının bazı temel nedenleri şunlardır:
Görüntü verisi artırma, özellikle bir bilgisayarla görme modelinin farklı durumlardaki nesneleri tanıması gerektiğinde ancak yeterli çeşitlilikte görüntüye sahip olmadığında yardımcı olur.
Örneğin, araştırmacılar nadiren fotoğraflanan nadir su altı türlerini tanımlamak için bir Vision AI modelini eğitiyorlarsa, veri kümesi küçük olabilir veya çeşitlilikten yoksun olabilir. Görüntüleri artırarak - farklı su derinliklerini simüle etmek için renkleri ayarlayarak, bulanık koşulları taklit etmek için gürültü ekleyerek veya doğal hareketi hesaba katmak için şekilleri biraz değiştirerek - model su altındaki nesneleri daha doğru bir şekilde tespit etmeyi öğrenebilir.
İşte büyütmenin büyük fark yarattığı diğer bazı durumlar:
Bilgisayarla görmenin ilk günlerinde, görüntü verilerinin artırılması öncelikle veri kümesi çeşitliliğini artırmak için çevirme, döndürme ve kırpma gibi temel görüntü işleme tekniklerini içeriyordu. Yapay zeka geliştikçe, öğrenmeyi geliştirmek için renkleri ayarlama (renk uzayı dönüşümleri), görüntüleri keskinleştirme veya bulanıklaştırma (çekirdek filtreleri) ve birden fazla görüntüyü bir araya getirme (görüntü karıştırma) gibi daha gelişmiş yöntemler kullanılmaya başlandı.
Güçlendirme, model eğitiminden önce ve eğitim sırasında gerçekleşebilir. Eğitimden önce, daha fazla çeşitlilik sağlamak için veri kümesine değiştirilmiş görüntüler eklenebilir. Eğitim sırasında görüntüler gerçek zamanlı olarak rastgele değiştirilerek Vision AI modellerinin farklı koşullara uyum sağlamasına yardımcı olunabilir.
Bu değişiklikler matematiksel dönüşümler kullanılarak yapılır. Örneğin, döndürme bir görüntüyü yatırır, kırpma farklı görünümleri taklit etmek için parçaları kaldırır ve parlaklık değişiklikleri aydınlatma varyasyonlarını simüle eder. Bulanıklaştırma görüntüleri yumuşatır, keskinleştirme ayrıntıları daha net hale getirir ve görüntü karıştırma farklı görüntülerin parçalarını birleştirir. OpenCV, TensorFlow ve PyTorch gibi görsel yapay zeka çerçeveleri ve araçları bu işlemleri otomatikleştirerek büyütmeyi hızlı ve etkili hale getirebilir.
Görüntü verisi artırmanın ne olduğunu tartıştığımıza göre, şimdi eğitim verilerini geliştirmek için kullanılan bazı temel görüntü verisi artırma tekniklerine daha yakından bakalım.
YOLO11 gibi bilgisayarla görme modellerinin genellikle nesneleri çeşitli açılardan ve bakış açılarından tanıması gerekir. Bu konuda yardımcı olmak için görüntüler yatay veya dikey olarak çevrilebilir, böylece yapay zeka modeli nesneleri farklı bakış açılarından tanımayı öğrenir.
Benzer şekilde, görüntüleri döndürmek açılarını hafifçe değiştirerek modelin nesneleri birden fazla perspektiften tanımlamasına olanak tanır. Ayrıca, görüntüleri farklı yönlere kaydırmak (öteleme) modellerin küçük konumsal değişikliklere uyum sağlamasına yardımcı olur. Bu dönüşümler, modellerin bir görüntüdeki nesne yerleşiminin tahmin edilemediği gerçek dünya koşullarına daha iyi genelleme yapmasını sağlar.
Gerçek dünyadaki bilgisayarla görme çözümleri açısından, görüntülerdeki nesneler farklı mesafelerde ve boyutlarda görünebilir. Görme yapay zeka modellerinin bu farklılıklardan bağımsız olarak onları tespit edebilecek kadar sağlam olması gerekir.
Uyarlanabilirliği artırmak için aşağıdaki artırma yöntemleri kullanılabilir:
Bu ayarlamalar, boyutları veya şekilleri biraz değişse bile bilgisayarla görme modellerinin nesneleri tanımasına yardımcı olur.
Görüntülerdeki nesneler kamera açısına bağlı olarak farklı görünebilir ve bu da bilgisayarla görme modelleri için tanımayı zorlaştırır. Modellerin bu varyasyonlarla başa çıkmasına yardımcı olmak için, büyütme teknikleri nesnelerin görüntülerde nasıl sunulduğunu ayarlayabilir.
Örneğin, perspektif dönüşümleri görüş açısını değiştirerek bir nesnenin farklı bir konumdan görülüyormuş gibi görünmesini sağlayabilir. Bu, Vision AI modellerinin nesneleri eğildiklerinde veya alışılmadık bir bakış açısından çekildiklerinde bile tanımasını sağlar.
Bir başka örnek de, nesnelerin yansımalarda veya basınç altında olduğu gibi görünmesi için doğal bozulmaları simüle etmek üzere görüntüleri esneten, büken veya çarpıtan elastik bir dönüşümdür.
Aydınlatma koşulları ve renk farklılıkları Vision AI modellerinin görüntüleri nasıl yorumladığını önemli ölçüde etkileyebilir. Nesneler çeşitli aydınlatma ayarları altında farklı görünebildiğinden, aşağıdaki güçlendirme teknikleri bu durumların üstesinden gelmeye yardımcı olabilir:
Şimdiye kadar, yalnızca tek bir görüntüyü değiştiren büyütme tekniklerini araştırdık. Ancak, bazı gelişmiş yöntemler yapay zeka öğrenimini geliştirmek için birden fazla görüntüyü birleştirmeyi içerir.
Örneğin, MixUp iki görüntüyü birbirine karıştırarak bilgisayarla görme modellerinin nesne ilişkilerini anlamasına yardımcı olur ve farklı senaryolar arasında genelleme yapma yeteneklerini geliştirir. CutMix bunu bir adım daha ileri götürerek bir görüntünün bir bölümünü başka bir görüntünün bir bölümüyle değiştiriyor ve modellerin aynı görüntü içindeki birden fazla bağlamdan öğrenmesini sağlıyor. Bu arada CutOut, bir görüntünün rastgele kısımlarını kaldırarak farklı bir şekilde çalışır ve Vision AI modellerini nesneleri kısmen gizlendiklerinde veya engellendiklerinde bile tanımaları için eğitir.
Üretken yapay zeka birçok sektörde ve günlük uygulamalarda ilgi görmeye başladı. Muhtemelen yapay zeka tarafından oluşturulan görüntüler, deepfake videolar veya gerçekçi avatarlar oluşturan uygulamalarla ilgili olarak karşılaşmışsınızdır. Ancak yaratıcılık ve eğlencenin ötesinde, Üretken Yapay Zeka, mevcut görüntülerden yeni görüntüler oluşturarak Vision AI modellerinin eğitiminde önemli bir rol oynamaktadır.
Sadece resimleri çevirmek veya döndürmek yerine, yüz ifadelerini, giyim tarzlarını değiştirmek ve hatta farklı hava koşullarını simüle etmek gibi gerçekçi varyasyonlar yaratabilir. Bu varyasyonlar, bilgisayarla görme modellerinin çeşitli gerçek dünya senaryolarında daha uyarlanabilir ve doğru olmasına yardımcı olur. GAN'lar (Generative Adversarial Networks) ve difüzyon modelleri gibi gelişmiş üretken yapay zeka modelleri de eksik ayrıntıları doldurabilir veya yüksek kaliteli sentetik görüntüler oluşturabilir.
Veri artırımı eğitim veri kümelerini iyileştirirken, dikkate alınması gereken bazı sınırlamalar da vardır. İşte görüntü verilerinin artırılmasıyla ilgili birkaç temel zorluk:
Görüntü verilerinin artırılmasının ilginç bir uygulaması, YOLO11 gibi bilgisayarla görme modelleri tarafından verilen anlık kararların çok önemli olduğu sürücüsüz araçlardır. Modelin yolları, insanları ve diğer nesneleri doğru bir şekilde tespit edebilmesi gerekir.
Ancak, sürücüsüz bir aracın karşılaştığı gerçek dünya koşulları öngörülemez olabilir. Kötü hava koşulları, hareket bulanıklığı ve gizli işaretler bu sektördeki Yapay Zeka çözümlerini karmaşık hale getirebilir. Bilgisayarla görme modellerini yalnızca gerçek dünya görüntüleriyle eğitmek genellikle yeterli değildir. Modelin beklenmedik durumlarla başa çıkmayı öğrenebilmesi için sürücüsüz araçlardaki modeller için görüntü veri kümelerinin çeşitli olması gerekir.
Görüntü verisi artırımı bunu sisi simüle ederek, parlaklığı ayarlayarak ve şekilleri bozarak çözer. Bu değişiklikler, modellerin farklı koşullardaki nesneleri tanımasına yardımcı olur. Sonuç olarak, modeller daha akıllı ve daha güvenilir hale gelir.
Artırılmış eğitim ile sürücüsüz araçlardaki Vision AI çözümleri daha iyi uyum sağlar ve daha güvenli kararlar verir. Daha doğru sonuçlar, daha az kaza ve daha iyi navigasyon anlamına gelir.
Kendi kendine giden arabalar buna sadece bir örnektir. Aslında görüntü verilerinin artırılması, tıbbi görüntülemeden perakende analitiğine kadar çok çeşitli sektörlerde çok önemlidir. Bilgisayarla görmeye dayanan tüm uygulamalar görüntü verilerinin artırılmasından potansiyel olarak faydalanabilir.
Görme yapay zeka sistemlerinin nesneleri farklı koşullarda tanıyabilmesi gerekir, ancak eğitim için sonsuz sayıda gerçek dünya görüntüsü toplamak zor olabilir. Görüntü verisi artırma, mevcut görüntülerin varyasyonlarını oluşturarak bunu çözer, modellerin daha hızlı öğrenmesine ve gerçek dünya koşullarında daha iyi performans göstermesine yardımcı olur. Doğruluğu artırarak YOLO11 gibi Vision AI modellerinin farklı ışıklandırma, açılar ve ortamlarla başa çıkabilmesini sağlar.
İşletmeler ve geliştiriciler için görüntü verisi artırma, bilgisayarla görme modellerini daha güvenilir hale getirirken zamandan ve emekten tasarruf sağlar. Sağlık hizmetlerinden sürücüsüz arabalara kadar birçok sektör buna bağlıdır. Görme Yapay Zekası gelişmeye devam ettikçe, büyütme, gelecek için daha akıllı ve daha uyarlanabilir modeller oluşturmanın önemli bir parçası olmaya devam edecektir.
Topluluğumuza katılın ve yapay zekayı çalışırken görmek için GitHub depomuzu ziyaret edin. Lisanslama seçeneklerimizi keşfedin ve çözümler sayfalarımızda tarımda yapay zeka ve üretimde bilgisayarla görme hakkında daha fazla bilgi edinin.
Makine öğreniminin geleceği ile yolculuğunuza başlayın