Sözlük

Veri Temizliği

Yapay zeka ve makine öğrenimi projeleri için ana veri temizleme. Hataları düzeltmek, veri kalitesini artırmak ve model performansını etkili bir şekilde artırmak için teknikleri öğrenin!

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Veri temizleme, bir veri kümesindeki hataları, tutarsızlıkları, yanlışlıkları ve bozuk kayıtları belirleme ve düzeltme veya kaldırma işlemidir. Verilerin doğru, tutarlı ve kullanılabilir olmasını sağlar; bu da güvenilir ve etkili yapay zeka (AI) ve makine öğrenimi (ML) modelleri oluşturmak için temeldir. Bunu pişirmeden önce yüksek kaliteli malzemeler hazırlamak gibi düşünün; temiz veri olmadan, veri biliminde yaygın olan "çöp içeri, çöp dışarı" ilkesini izleyerek nihai çıktı (AI modeli) muhtemelen kusurlu olacaktır. Temiz veri daha iyi model performansı, daha güvenilir içgörüler ve YZ 'de daha az önyargı sağlar.

Yapay Zeka ve Makine Öğreniminde Uygunluk

Yapay zeka ve makine öğreniminde, eğitim verilerinin kalitesi model doğruluğunu ve yeni, görülmemiş verilere genelleme yeteneğini doğrudan etkiler. Veri temizleme, makine öğrenimi iş akışında kritik bir ilk adımdır ve genellikle özellik mühendisliği ve model eğitimi gibi görevlerden önce gelir. Gibi modeller Ultralytics YOLOnesne algılama veya örnek segmentasyonu gibi zorlu görevler için kullanılan, etkili bir şekilde öğrenmek için büyük ölçüde temiz, iyi yapılandırılmış veri kümelerine güvenir. Yanlış etiketlenmiş görüntüler, tutarsız sınırlayıcı kutu biçimleri, eksik değerler veya yinelenen girişler gibi hatalar performansı önemli ölçüde düşürebilir ve gerçek dünya uygulamalarında güvenilir olmayan tahminlere yol açabilir. Veri temizleme yoluyla bu sorunların ele alınması, modelin ham verilerde bulunan gürültü veya hatalar yerine anlamlı kalıpları öğrenmesini sağlayarak aşırı uyum gibi sorunları önlemeye yardımcı olur.

Yaygın Veri Temizleme Görevleri

Veri temizleme, bir veri kümesindeki belirli sorunlara göre uyarlanmış çeşitli teknikleri içerir. Yaygın görevler şunları içerir:

  • Kayıp Verilerin İşlenmesi: Kayıp değerlere sahip girdilerin belirlenmesi ve bunların kaldırılıp kaldırılmayacağına, tahmin edilip edilmeyeceğine (imputasyon) veya kayıp verilere dayanıklı algoritmaların kullanılıp kullanılmayacağına karar verilmesi. Bağlama bağlı olarak kayıp verileri ele almak için çeşitli stratejiler mevcuttur.
  • Hataları ve Tutarsızlıkları Düzeltme: Yazım hatalarının düzeltilmesi, birimlerin veya formatların standartlaştırılması (örneğin, tarih formatları, büyük harf kullanımı) ve çelişkili veri noktalarının çözülmesi. Bu, veri bütünlüğünü korumak için çok önemlidir.
  • Mükerrer Kayıtları Kaldırma: Analizi veya model eğitimini çarpıtabilecek aynı veya neredeyse aynı girişlerin belirlenmesi ve ortadan kaldırılması.
  • Aykırı Değerlerin Ele Alınması: Diğer gözlemlerden önemli ölçüde farklı olan veri noktalarının tespit edilmesi. Nedenine bağlı olarak aykırı değerler kaldırılabilir, düzeltilebilir veya saklanabilir. Çeşitli aykırı değer tespit yöntemleri kullanılabilir.
  • Yapısal Hataların Ele Alınması: Tutarsız adlandırma kuralları veya yanlış yerleştirilmiş girişler gibi veri yapısıyla ilgili sorunların giderilmesi.

Gerçek Dünya Uygulamaları

Veri temizleme, çok sayıda AI/ML uygulamasında vazgeçilmezdir:

  1. Tıbbi Görüntü Analizi: Beyin Tümörü veri kümesi gibi sağlık hizmeti veri kümelerinde veri temizleme, düşük kaliteli veya bozuk taramaların (örneğin bulanık görüntüler) kaldırılmasını, görüntü formatlarının (DICOM gibi) standartlaştırılmasını, yanlış etiketlenmiş tanıların düzeltilmesini ve HIPAA gibi düzenlemelere göre hasta verilerinin gizliliğinin korunmasını içerir. Temiz veri, güvenilir tanı modellerinin eğitilmesi için hayati önem taşır. Ulusal Sağlık Enstitüleri (NIH) biyomedikal araştırmalarda veri kalitesini vurgulamaktadır. Sağlık Hizmetlerinde Yapay Zeka hakkında daha fazlasını keşfedin.
  2. Perakende Envanter Yönetimi: Potansiyel olarak SKU-110K veri setini kullananlar gibi stok takibi için bilgisayarla görmeyi kullanan sistemler için temizlik, görüntülerdeki yanlış tanımlanmış ürünlerin düzeltilmesini, tarama hatalarından kaynaklanan yinelenen girişlerin kaldırılmasını, farklı veri kaynaklarında ürün adlarının veya kodlarının standartlaştırılmasını ve talep tahmini veya öneri sistemleri için kullanılan satış kayıtlarındaki tutarsızlıkların ele alınmasını içerir. Bu, doğru stok sayımları ve verimli tedarik zinciri operasyonları sağlayarak Yapay Zeka ile Perakende Verimliliğine Ulaşmaya katkıda bulunur. Perakende içinGoogle Cloud AI gibi platformlar genellikle temiz girdi verilerine dayanır.

Veri Temizleme ve İlgili Kavramlar

Veri temizlemeyi ilgili veri hazırlama adımlarından ayırmak önemlidir:

  • Veri Ön İşleme: Bu, veri temizlemeyi kapsayan daha geniş bir terimdir, ancak normalleştirme (sayısal özellikleri ölçeklendirme), kategorik değişkenleri kodlama ve özellik çıkarma gibi ML modelleri için veri hazırlamaya yönelik diğer dönüşümleri de içerir. Temizleme hataları düzeltmeye odaklanırken, ön işleme algoritmalar için verileri biçimlendirmeye odaklanır. Daha fazla ayrıntı için açıklamalı verilerin ön işlenmesine ilişkinUltralytics kılavuzuna bakın.
  • Veri Etiketleme: Bu, denetimli öğrenme için görüntülerdeki nesnelerin etrafına sınırlayıcı kutular çizmek gibi ham verilere bilgilendirici etiketler veya ek açıklamalar (etiketler) ekleme işlemidir. Veri temizleme, kalite kontrolleri sırasında belirlenen yanlış etiketlerin düzeltilmesini içerebilir, ancak ilk etiketleme eyleminden farklıdır. Veri Toplama ve Açıklama kılavuzu, etiketleme hakkında bilgiler sağlar. Ultralytics HUB, etiketli veri kümelerini yönetmek için araçlar sunar.
  • Veri Büyütme: Bu teknik, mevcut verilerin değiştirilmiş kopyalarını oluşturarak (örneğin, görüntüleri döndürerek, parlaklığı değiştirerek) eğitim veri kümesinin boyutunu ve çeşitliliğini yapay olarak artırır. Veri büyütme model genellemesini ve sağlamlığını geliştirmeyi amaçlarken, veri temizleme orijinal verilerin kalitesini artırmaya odaklanır. Daha fazla bilgi için 2025'te Veri Artırma için Nihai Kılavuz.

Veri temizleme, temel verilerin sağlam olmasını sağlayarak yapay zeka sistemlerinin güvenilirliğini ve performansını önemli ölçüde artıran temel ve genellikle yinelemeli bir uygulamadır. Pandas kütüphanesi gibi araçlar, Python makine öğrenimi iş akışlarında veri manipülasyonu ve temizleme görevleri için yaygın olarak kullanılır. Özellikle karmaşık bilgisayarla görme (CV) görevleri veya COCO veya ImageNet gibi büyük ölçekli kıyaslama veri kümeleriyle çalışırken, titiz bir temizlik yoluyla veri kalitesinin sağlanması, güvenilir yapay zeka geliştirmek için hayati önem taşır.

Tümünü okuyun