Sözlük

Veri Ön İşleme

Makine öğrenimi için ana veri ön işleme. Model doğruluğunu ve performansını artırmak için temizleme, ölçekleme ve kodlama gibi teknikleri öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Veri ön işleme, Makine Öğrenimi (ML) modellerini eğitmek için kullanılmadan önce ham verileri temizlemek, dönüştürmek ve yapılandırılmış ve uygun bir formatta düzenlemek için kullanılan temel teknikleri içerir. Çeşitli kaynaklardan toplanan ham veriler genellikle dağınıktır ve eksik değerler, tutarsızlıklar, gürültü veya hatalar içerir. Ön işleme bu sorunları ele alarak veri kalitesini artırır ve bu da ML modellerinin performansını, doğruluğunu ve güvenilirliğini doğrudan artırır. Bu adım, Yapay Zeka (AI) ve Bilgisayarla Görme (CV) dahil olmak üzere veri odaklı tüm projelerde temeldir.

Veri Önişleme Neden Önemlidir?

"Çöp girer, çöp çıkar" ilkesi makine öğrenimi için güçlü bir şekilde geçerlidir. Modeller kalıpları doğrudan üzerinde eğitildikleri verilerden öğrenir. Girdi verileri kusurluysa, model yanlış veya ilgisiz kalıpları öğrenecek, bu da kötü tahminlere ve güvenilmez sonuçlara yol açacaktır. Yüksek kaliteli, iyi hazırlanmış veriler, aşağıdakiler gibi etkili modeller oluşturmak için çok önemlidir Ultralytics YOLOnesne algılama gibi zorlu görevler için. Uygun veri ön işleme, önemli ölçüde katkıda bulunur:

  • Model Doğruluğunun Artırılması: Temiz ve iyi yapılandırılmış veriler, modelin anlamlı kalıpları daha etkili bir şekilde öğrenmesine yardımcı olur.
  • Verimliliği Artırma: Ön işleme, verileri basitleştirerek veya boyutsallığını azaltarak eğitim için gereken hesaplama kaynaklarını azaltabilir.
  • Aşırı Uyumu Azaltma: Gürültü ve aykırı değerlerin ele alınması, modelin bu alakasız ayrıntıları öğrenmesini önleyerek yeni verilere genelleme yapma ve aşırı uyumu önleme yeteneğini geliştirebilir.
  • Güvenilirliğin Sağlanması: Tutarlı veri biçimlendirmesi, hem eğitim hem de çıkarım sırasında daha istikrarlı ve güvenilir model davranışına yol açar.

Yaygın Veri Ön İşleme Teknikleri

Veri ön işleme sırasında, veri türüne ve belirli makine öğrenimi görevine bağlı olarak, genellikle kombinasyon halinde çeşitli teknikler uygulanır. Temel teknikler şunları içerir:

  • Veri Temizleme: Bu, hataları tanımlamayı ve düzeltmeyi, eksik değerleri ele almayı (örneğin, imputasyon veya kaldırma yoluyla) ve aykırı değerlerle veya gürültülü veri noktalarıyla başa çıkmayı içerir. Pandas gibi araçlar Python'da bunun için yaygın olarak kullanılır.
  • Veri Dönüşümü: Bu adım, verileri daha uygun bir biçime dönüştürür.
    • Ölçeklendirme: Normalleştirme (verileri bir aralığa ölçekleme, tipik olarak 0 ila 1) veya Standartlaştırma (verileri sıfır ortalama ve birim varyansa sahip olacak şekilde ölçekleme) gibi teknikler, gradyan inişi tabanlı modeller gibi özellik ölçeklerine duyarlı algoritmalara yardımcı olur. Scikit-learn ön işleme belgelerinde ölçeklendirme teknikleri hakkında daha fazla bilgi edinin.
    • Kodlama: Kategorik özelliklerin (metin etiketleri gibi) modellerin işleyebileceği sayısal temsillere (örn. tek vuruşlu kodlama) dönüştürülmesi.
  • Özellik Mühendisliği: Model performansını iyileştirmek için mevcut özelliklerden yeni, potansiyel olarak daha bilgilendirici özellikler oluşturmak. Bu, alan bilgisi ve yaratıcılık gerektirir.
  • Özellik Çıkarma: Temel bilgileri koruyarak orijinal verilerden daha küçük bir özellik kümesinin otomatik olarak türetilmesi. Bu genellikle Temel Bileşen Analizi (PCA) gibi teknikler kullanılarak yapılır.
  • Boyutluluk Azaltma: Modeli basitleştirmek, eğitim süresini azaltmak ve özellikle Büyük Veri için önemli olan aşırı uyum riskini azaltmak için girdi özelliklerinin sayısını azaltmak.
  • Görüntüye Özel Ön İşleme: Bilgisayarla görme görevleri için, yaygın adımlar arasında görüntüleri tutarlı bir boyuta yeniden boyutlandırma, renk uzaylarını dönüştürme (örneğin, BGR'den RGB'ye), parlaklığı veya kontrastı ayarlama ve OpenCV gibi kütüphaneleri kullanarak gürültü azaltma için filtreler uygulama yer alır. Ultralytics , YOLO modelleri için açıklamalı verilerin ön işlenmesi konusunda rehberlik sağlar.

Gerçek Dünya Uygulamaları

Veri ön işleme, sayısız AI/ML uygulamasında kritik öneme sahiptir:

  1. Tıbbi Görüntü Analizi: Bir yapay zeka modelinin tümör gibi anormallikler için MRI veya CT taramalarını analiz edebilmesi için(Beyin Tümörüveri seti örneği), görüntülerin önceden işlenmesi gerekir. Bu genellikle filtreler kullanarak gürültü azaltmayı, farklı taramalar ve makineler arasında parlaklık seviyelerini standartlaştırmak için yoğunluk normalleştirmeyi ve birden fazla taramayı hizalamak için görüntü kaydını içerir. Bu adımlar, modelin tutarlı girdi almasını sağlayarak ince anormallikleri doğru bir şekilde tespit etme yeteneğini geliştirir. Bu, Sağlık Hizmetlerinde Yapay Zeka uygulamaları için hayati önem taşır.
  2. Otonom Araçlar: Kendi kendine giden araçlar kameralar ve LiDAR gibi sensörlere dayanır. Bu sensörlerden gelen ham verilerin kapsamlı bir ön işlemden geçirilmesi gerekir. Kamera görüntülerinin yeniden boyutlandırılması, renk düzeltmesi ve değişen aydınlatma koşullarını idare etmek için parlaklık ayarlamaları gerekebilir. LiDAR nokta bulutu verileri, gürültüyü veya zemin noktalarını gidermek için filtrelemeye ihtiyaç duyabilir. Bu ön işleme, nesne algılama ve izleme sistemlerinin yayaları, araçları ve engelleri güvenilir bir şekilde tanımlamak için temiz, standartlaştırılmış veriler almasını sağlar, bu da Otomotiv uygulamalarında yapay zekada güvenlik için çok önemlidir.

Veri Önişleme ve İlgili Kavramlar

Veri ön işlemeyi yakından ilişkili terimlerden ayırmak faydalı olacaktır:

  • Veri Temizleme ve Veri Ön İşleme: Veri temizleme, veri ön işlemenin bir alt kümesidir ve özellikle veri kümesindeki hataları, tutarsızlıkları ve eksik değerleri belirlemeye ve düzeltmeye odaklanır. Ön işleme daha geniştir ve temizlemenin yanı sıra dönüştürme, ölçeklendirme ve özellik manipülasyonunu da kapsar.
  • Veri Artırma veVeri Önişleme: Veri büyütme, mevcut verilerin değiştirilmiş kopyalarını oluşturarak (örneğin, görüntüleri döndürerek veya çevirerek) eğitim veri kümesinin boyutunu ve çeşitliliğini yapay olarak artırmayı içerir. Artırma, özellikle derin öğrenmede eğitim için veri hazırlamanın hayati bir parçası olsa da genellikle temizleme ve yeniden boyutlandırma gibi ilk ön işleme adımlarından sonra gerçekleştirilir. Büyütme stratejileri de dahil olmak üzere model eğitimi için ipuçlarını keşfedin.
  • Özellik Mühendisliği ve Veri Önişleme: Özellik mühendisliği, mevcut özelliklerden yeni girdi özellikleri oluşturma sürecidir. Genellikle modelin tahmin gücünü artırmayı amaçlayan daha geniş veri ön işleme hattı içinde bir adım olarak kabul edilir.
  • Veri Etiketleme ve Veri Önişleme: Veri etiketleme, ham verilere anlamlı etiketler veya ek açıklamalar (nesnelerin etrafına sınırlayıcı kutular çizmek gibi) atamayı içerir. Bu, denetimli öğrenme görevleri için gereklidir. Etiketleme, genellikle ön işlemeden önce veya ön işlemeyle birlikte gerçekleşen farklı bir adımdır. Etkili ön işleme ile birlikte yüksek kaliteli etiketler model eğitimi için çok önemlidir. Daha fazla ayrıntı için Ultralytics Veri Toplama ve Ek Açıklama kılavuzuna bakın.

Veri kümelerini yönetmek ve ön işleme adımlarını uygulamak, veri kümesi yönetimi ve model eğitimi için araçlar sunan Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.

Tümünü okuyun