Sözlük

Veri Kümesi Yanlılığı

Gerçek dünya uygulamaları için adil, doğru ve güvenilir makine öğrenimi modelleri sağlamak amacıyla yapay zekada veri kümesi önyargısının nasıl belirleneceğini ve azaltılacağını öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Veri kümesi önyargısı, bir modeli eğitmek için kullanılan verilerin, modelin uygulanacağı gerçek dünya ortamının çeşitliliğini ve karmaşıklığını sistematik olarak temsil edemediği makine öğreniminde (ML) kritik bir sorundur. Bu tutarsızlık veri toplama, örnekleme veya açıklama süreçlerindeki kusurlardan kaynaklanır. Sonuç olarak, taraflı veri kümeleri üzerinde eğitilen modeller, benzer veriler kullanılarak değerlendirme ölçütlerinde iyi performans gösterebilir ancak yeni, görülmemiş verilere veya farklı demografik gruplara uygulandığında zayıf genelleme, yanlışlık ve adaletsizlik sergileyebilir. Yapay zekada önyargı tartışmalarında vurgulandığı gibi, veri kümesi önyargısının ele alınması güvenilir, etkili ve eşitlikçi yapay zeka sistemleri oluşturmak için gereklidir.

Veri Seti Yanlılığı Türleri

Çeşitli önyargı türleri veri setlerine sızarak model sonuçlarının çarpık olmasına yol açabilir. Bu türleri anlamak, azaltmaya yönelik ilk adımdır:

  • Seçim Önyargısı: Veri toplama süreci belirli veri alt kümelerini diğerlerine tercih ettiğinde ortaya çıkar ve temsili olmayan bir örnekleme yol açar. Örneğin, trafik verilerinin sadece belirli saatlerde toplanması diğer zamanlardaki örüntüleri gözden kaçırabilir.
  • Örnekleme Yanlılığı: Toplanan örneklemin hedef popülasyonun oranlarını doğru bir şekilde yansıtmadığı belirli bir seçim yanlılığı türüdür. Rastgele olmayan Örnekleme Yöntemlerinin kullanılması genellikle buna neden olabilir.
  • Ölçüm Önyargısı: Veri ölçümü veya açıklama aşamasındaki yanlışlıklardan veya tutarsızlıklardan kaynaklanır. Bu, hatalı sensörleri veya farklı açıklayıcılar tarafından gerçekleştirilen Veri Etiketlemedeki öznel tutarsızlıkları içerebilir.
  • Etiket Önyargısı: Veri noktalarına atanan etiketler öznel, tutarsız olduğunda ya da açıklama yapanların örtük önyargılarını yansıttığında ortaya çıkar ve potansiyel olarak Doğrulama Önyargısı açıklaması gibi faktörlerden etkilenir.
  • Temsil Önyargısı: Veri kümesi gerçek dünyada bulunan belirli grupları veya nitelikleri eksik temsil ettiğinde ortaya çıkar ve modelin bu gruplar için düşük performans göstermesine neden olur.

Veri Seti Yanlılığının Gerçek Dünyadan Örnekleri

Veri kümesi yanlılığı, çeşitli uygulamalarda gerçek dünyada önemli sonuçlar doğurabilir:

  1. Yüz Tanıma Sistemleri: İlk Yüz Tanıma sözlük sistemlerinin çoğu, ağırlıklı olarak açık tenli erkek yüzlerini içeren veri kümeleri üzerinde eğitilmiştir. Sonuç olarak bu sistemler, yüz tanımada demografik etkiler üzerine NIST çalışmasında belgelendiği gibi, daha koyu ten rengine sahip bireyleri veya kadın yüzlerini tanımlarken genellikle önemli ölçüde daha düşük doğruluk sergilemiştir.
  2. Tıbbi Görüntü Analizi: Cilt kanserini tespit etmek için tasarlanan bir yapay zeka modeli, öncelikle açık tenli bireylerden alınan görüntüler üzerinde eğitilebilir. Farklı bir popülasyonda kullanıldığında, eğitim verilerindeki temsili görüntülerin eksikliği nedeniyle daha koyu cilt tonlarına sahip bireylerdeki maligniteleri doğru bir şekilde tespit edemeyebilir, bu da tıbbi YZ araştırmalarındaki önyargı sorunlarını vurgulayarak Sağlık Hizmetlerinde YZ'nin etkinliğini etkileyebilir.

Veri Seti Önyargısının Belirlenmesi ve Azaltılması

Veri kümesi önyargısını tespit etmek, veri kaynağının, toplama yöntemlerinin ve özelliklerin ve etiketlerin dağılımının dikkatli bir şekilde analiz edilmesini gerektirir. Teknikler arasında keşfedici veri analizi, alt grup performansını karşılaştıran istatistiksel testler ve dengesizlikleri tespit etmek için Veri Görselleştirme yer alır.

Belirlendikten sonra, hafifletme stratejileri şunları içerir:

  • Daha Temsili Veriler Toplamak: Veri toplama çalışmalarının yeterince temsil edilmeyen grupları ve senaryoları içerecek şekilde genişletilmesi.
  • Veri Zenginleştirme: Ultralytics YOLO gibi modellerle entegre araçlar kullanarak görüntü döndürme, kırpma veya renk kaydırma gibi teknikler uygulamak, Veri Artırma sözlüğünde ayrıntılı olarak açıklandığı gibi veri çeşitliliğini artırmaya yardımcı olabilir.
  • Yeniden Örnekleme Teknikleri: Azınlık sınıflarını fazla örnekleyerek veya çoğunluk sınıflarını az örnekleyerek veri kümesinin ayarlanması.
  • Algoritmik Adalet Teknikleri: Model eğitimi veya işlem sonrası sırasında adaleti teşvik etmek için tasarlanmış algoritmaların uygulanması. AI Fairness 360 Toolkit (IBM Research) gibi araçlar bunun için kaynaklar sunar.
  • Çeşitli Kıyaslama Veri Kümelerini Kullanma: Çeşitliliği ile bilinen standartlaştırılmış Kıyaslama Veri K ümeleri üzerinde modellerin değerlendirilmesi.

İlgili Kavramlar

Veri kümesi önyargısı, yapay zekadaki diğer bazı önemli kavramlarla yakından bağlantılıdır:

  • Algoritmik Önyargı: Veri kümesi önyargısı verilerden kaynaklanırken, algoritmik önyargı modelin tasarımından veya öğrenme sürecinden kaynaklanır; bu da mevcut önyargıları güçlendirebilir veya yenilerini ortaya çıkarabilir.
  • YZ'de Adalet: Bu alan, genellikle veri kümesi ve algoritmik önyargıların ölçülmesini ve azaltılmasını içeren, bireylere ve gruplara eşit davranan YZ sistemleri geliştirmeye odaklanmaktadır.
  • Yapay Zeka Etiği: Önyargılı modeller ayrımcılığı ve zararı sürdürebileceğinden, veri kümesi önyargısı önemli bir etik sorundur. Daha geniş etik çerçeveler, Yapay Zeka Ortaklığı (PAI) gibi kuruluşlar tarafından savunulan sorumlu yapay zeka gelişimine rehberlik etmektedir.
  • Açıklanabilir Yapay Zeka (XAI): Model tahminlerini daha şeffaf hale getiren teknikler, veri setindeki önyargıların sonuçları etkileyip etkilemediğini belirlemeye yardımcı olabilir.

Understanding AI Bias blogu ve Google'ın Sorumlu YZ Uygulamaları gibi kaynaklarda tartışıldığı gibi veri kümesi önyargısını anlamak ve proaktif olarak ele almak, güvenilir YZ sistemleri oluşturmak için çok önemlidir. Microsoft Responsible AI Resources ve ACM Conference on Fairness, Accountability, and Transparency (FAccT) gibi kuruluşların araştırma ve kaynakları, bu zorluğun üstesinden gelmek için yöntemler geliştirmeye devam ediyor.

Tümünü okuyun