Sözlük

Veri Büyütme

Makine öğrenimi modellerinizi veri artırımı ile geliştirin. Doğruluğu artıracak, aşırı uyumu azaltacak ve sağlamlığı geliştirecek teknikleri keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Veri artırımı, makine öğreniminde (ML) bir eğitim veri kümesinin boyutunu ve çeşitliliğini yapay olarak genişletmek için kullanılan önemli bir tekniktir. Bu, mevcut veri noktalarının değiştirilmiş versiyonlarını oluşturarak veya bunlara dayalı yeni sentetik örnekler üreterek elde edilir. Birincil amaç, özellikle büyük ve çeşitli veri kümelerinin elde edilmesinin maliyetli ve zaman alıcı olabileceği bilgisayarla görme (CV) gibi alanlarda makine öğrenimi modellerinin performansını, genelleme yeteneklerini ve sağlamlığını artırmaktır. gibi modelleri eğiterek Ultralytics YOLO Geliştiriciler, artırılmış veriler üzerinde, gerçek dünya senaryolarında karşılaşılan daha geniş bir varyasyon yelpazesini ele almayı öğrenmelerine yardımcı olabilir ve bu da görünmeyen verilerde daha iyi doğruluk sağlar.

Veri Artırma Nasıl Çalışır?

Veri artırımının arkasındaki temel fikir, yeni, makul eğitim örnekleri oluşturmak için orijinal veri örneklerine çeşitli dönüşümler uygulamaktır. Bu dönüşümler ideal olarak modelin çıkarım sırasında karşılaşabileceği varyasyonları yansıtmalıdır. Bilgisayarla görmede birincil odak noktası olan görüntü verileri için, yaygın artırma teknikleri şunları içerir:

  • Geometrik Dönüşümler: Döndürme, ölçekleme (yakınlaştırma veya uzaklaştırma), öteleme (kaydırma), kesme ve çevirme (yatay veya dikey olarak) gibi görüntünün uzamsal özelliklerinin değiştirilmesi.
  • Renk Uzayı Dönüşümleri: Parlaklık, kontrast, doygunluk ve renk tonu ayarlamaları dahil olmak üzere renk özelliklerinin değiştirilmesi. Bunlar, modellerin aydınlatma koşullarına ve kamera varyasyonlarına karşı daha az hassas olmasına yardımcı olur.
  • Gürültü Ekleme: Sensör gürültüsünü veya kusurlu görüntü kalitesini simüle etmek için rastgele gürültü ( Gauss gürültüsü gibi) ekleme.
  • Rastgele Silme / Kesme: Modeli nesnelerin farklı kısımlarına odaklanmaya teşvik etmek ve oklüzyona karşı sağlamlığı artırmak için bir görüntünün rastgele dikdörtgen bölgelerini maskelemek.
  • Görüntüleri Karıştırma: Birden fazla görüntünün veya görüntü parçasının birleştirilmesi. Mixup (iki görüntü ve etiketleri arasında enterpolasyon yapma) ve CutMix (bir görüntüden diğerine bir yama yapıştırma) gibi teknikler modeli daha az temiz örneklerden öğrenmeye zorlar.

Özgeçmişte yoğun olarak kullanılmakla birlikte, artırma teknikleri diğer alanlarda da uygulanmaktadır. Örneğin, Doğal Dil İşleme'de (NLP), eşanlamlı değiştirme, geri çeviri (metni başka bir dile ve geri çevirme) ve rastgele kelime ekleme / silme gibi yöntemler metin verilerini artırabilir.

Önemi ve Faydaları

Veri artırımı, çeşitli nedenlerden dolayı makine öğrenimi iş akışının temel bir parçasıdır:

  • Geliştirilmiş Model Genellemesi: Modelin daha çeşitli örneklere maruz kalması, belirli eğitim örneklerini ezberlemek yerine altta yatan kalıpları öğrenmesine yardımcı olarak yeni veriler üzerinde daha iyi performans elde edilmesini sağlar.
  • Azaltılmış Aşırı Uyum: Aşırı uyum, bir model eğitim verilerinde iyi performans gösterirken görünmeyen verilerde kötü performans gösterdiğinde ortaya çıkar. Artırma, modelin sınırlı orijinal veri kümesine aşırı uyum sağlamasını zorlaştıran bir düzenleme tekniği olarak işlev görür.
  • Artırılmış Sağlamlık: Artırılmış verilerle eğitilen modeller genellikle aydınlatma, bakış açısı, ölçek veya kısmi oklüzyonlardaki değişiklikler gibi girdi değişikliklerine karşı daha dayanıklıdır.
  • Azaltılmış Veri Toplama İhtiyacı: Geliştiricilerin daha küçük başlangıç veri kümeleriyle daha iyi sonuçlar elde etmesini sağlayarak veri toplama ve etiketleme ile ilgili zaman ve kaynaklardan tasarruf sağlar. Belgelerimizde daha fazla model eğitimi ipucu bulabilirsiniz.

Teknikler ve Araçlar

Veri artırımının uygulanması çeşitli kütüphaneler ve çerçeveler tarafından kolaylaştırılır. Bilgisayarla görme görevleri için bazı popüler araçlar şunlardır:

Ultralytics modelleri, eğitim sırasında çeşitli etkili yerleşik artırma tekniklerini içerir. Kullanıcılar, Ultralytics HUB gibi platformlar aracılığıyla veri kümelerini yönetebilir ve bu özelliklerden yararlanabilir.

Gerçek Dünya Uygulamaları

Veri artırımı, çok sayıda yapay zeka alanında yaygın olarak uygulanmaktadır:

  1. Sağlık Hizmetlerinde Yapay Zeka: Taramalarda tümörlerin tespit edilmesi gibi tıbbi görüntüleme analizlerinde, veri kümeleri gizlilik kaygıları ve belirli durumların nadirliği nedeniyle genellikle sınırlıdır. Döndürme, ölçekleme ve parlaklık ayarlamaları gibi güçlendirme teknikleri, çeşitli eğitim örnekleri oluşturarak modellerin görüntüleme ekipmanı veya hasta konumlandırmasındaki değişikliklere rağmen anormallikleri güvenilir bir şekilde tespit etmesine yardımcı olur. Bu da tıbbi görüntü analiz sistemlerinin tanısal doğruluğunu artırır.
  2. Otomotiv için Yapay Zeka: Otonom araçlar için sağlam nesne algılama sistemleri geliştirmek, çeşitli sürüş senaryolarını kapsayan eğitim verileri gerektirir. Güçlendirme, farklı hava koşullarını (örneğin, sentetik yağmur veya sis ekleme), aydınlatma varyasyonlarını (gündüz, gece, şafak / alacakaranlık) ve tıkanıklıkları (örneğin, kısmen gizlenmiş yayalar veya araçlar) simüle ederek, algılama sistemlerini öngörülemeyen gerçek dünya ortamlarında daha güvenilir hale getirir.
  3. Tarımda Yapay Zeka: Mahsul hastalığı tespiti veya meyve sayımı gibi görevler için artırma, hava durumu veya günün saati, farklı büyüme aşamaları veya dronlardan veya yer robotlarından gelen kamera açıları nedeniyle ışıklandırmadaki değişiklikleri simüle edebilir ve daha sağlam hassas tarım çözümlerine yol açabilir.
  4. Üretimde Yapay Zeka: Kalite kontrolde artırma, üretim hatlarında daha güvenilir anormallik tespiti için modelleri eğitmek üzere ürün oryantasyonu, aydınlatma ve küçük kusurlarda varyasyonlar oluşturabilir.

Veri Artırımı ve Sentetik Veri

Hem veri artırımı hem de sentetik veri üretimi eğitim veri setlerini geliştirmeyi amaçlasa da temelde farklılık gösterirler:

  • Veri Büyütme: Mevcut gerçek verileri dönüşümler yoluyla değiştirir. Gözlemlenen veri noktaları etrafındaki varyansı artırır, ancak genellikle orijinal verilerde temsil edilmeyen tamamen yeni senaryolar sunmaz.
  • Sentetik Veri: Genellikle simülasyonlar, bilgisayar grafikleri veya Generative Adversarial Networks (GANs) veya difüzyon modelleri gibi üretken modeller kullanılarak sıfırdan tamamen yeni, yapay veriler oluşturmayı içerir. Sentetik veriler, gerçek dünyada nadir görülen veya yakalanması imkansız olan senaryoları temsil edebilir ve potansiyel olarak artırmanın ele alamayacağı boşlukları doldurabilir.

Uygulamada, veri artırımının uygulanması genellikle daha kolaydır ve hesaplama açısından yüksek doğrulukta sentetik veri üretmekten daha ucuzdur. Her iki teknik de değerli olabilir ve bazen zorlu yapay zeka uygulamaları için son derece çeşitli ve sağlam eğitim veri kümeleri oluşturmak için birlikte kullanılırlar.

Tümünü okuyun