Sözlük

Veri Kümesi Yanlılığı

Gerçek dünya uygulamaları için adil, doğru ve güvenilir makine öğrenimi modelleri sağlamak amacıyla yapay zekada veri kümesi önyargısının nasıl belirleneceğini ve azaltılacağını öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Veri kümesi yanlılığı, bir makine öğrenimi (ML) modelini eğitmek için kullanılan veriler, modelin uygulanacağı gerçek dünya ortamını temsil etmediğinde ortaya çıkar. Bu temsil eksikliği çarpık sonuçlara, düşük performansa ve adil olmayan sonuçlara yol açabilir. Yapay Zeka'da (YZ), özellikle de modellerin doğrudan görsel verilerden örüntüler öğrendiği Bilgisayarla Görme(BG ) gibi alanlarda önemli bir zorluktur. Eğitim veri kümesi dengesizlikler içeriyorsa veya tarihsel önyargıları yansıtıyorsa, ortaya çıkan YZ modeli muhtemelen bu sorunları miras alacak ve potansiyel olarak artıracak, bu da veri kümesi önyargısını YZ 'deki genel Önyargının birincil kaynağı haline getirecektir.

Veri Seti Yanlılığının Kaynakları ve Türleri

Veri seti önyargısı tek bir sorun olmayıp veri toplama ve açıklama sürecinde çeşitli şekillerde ortaya çıkabilir:

  • Seçim Yanlılığı: Veriler rastgele örneklenmediğinde ortaya çıkar ve belirli grupların veya senaryoların aşırı temsil edilmesine veya yetersiz temsil edilmesine neden olur. Örneğin, otonom sürüş için öncelikle gündüz, açık hava görüntüleri üzerinde eğitilmiş bir veri kümesi, gece veya yağmurda düşük performans gösterebilir.
  • Ölçüm Yanlılığı: Veri toplama araçlarındaki veya sürecindeki sorunlardan kaynaklanır. Örneğin, bir yüz tanıma veri setinde farklı demografik gruplar için farklı kalitede kameraların kullanılması yanlılığa yol açabilir.
  • Etiket Önyargısı (Ek Açıklama Önyargısı): Veri etiketleme aşamasındaki tutarsızlıklardan veya önyargılardan kaynaklanır; burada insan şerhçiler öznel görüşlere veya örtük önyargılara dayanarak verileri farklı şekilde yorumlayabilir veya etiketleyebilir. Farklı bilişsel önyargı türlerinin araştırılması, potansiyel insan faktörlerine ışık tutabilir.
  • Tarihsel Önyargı: Dünyada mevcut olan ve verilerde yakalanan mevcut toplumsal önyargıları yansıtır. Tarihsel veriler belirli grupların belirli rollerde daha az temsil edildiğini gösteriyorsa, bu veriler üzerinde eğitilen bir yapay zeka bu önyargıyı devam ettirebilir.

Yapay zeka önyargısını anlamaya yönelikUltralytics blogu gibi kaynaklarda vurgulandığı gibi, bu kaynakları anlamak etkilerini azaltmak için çok önemlidir.

Veri Seti Önyargısı Neden Önemlidir?

Veri seti yanlılığının sonuçları ciddi olabilir, model performansını ve toplumsal adaleti etkileyebilir:

  • Azalan Doğruluk ve Güvenilirlik: Önyargılı veriler üzerinde eğitilen modeller, yeterince temsil edilmeyen gruplardan veya senaryolardan gelen verilerle karşılaştıklarında genellikle daha düşük doğruluk sergilerler. Bu durum, "Veri Setleri" gibi çalışmalarda tartışıldığı gibi modelin genelleme yeteneğini sınırlar: Yapay Zekanın Hammaddesi".
  • Adil Olmayan veya Ayrımcı Sonuçlar: Önyargılı modeller, belirli gruplar için sistematik dezavantajlara yol açarak YZ' de Adalet ve YZ Etiği ile ilgili önemli endişelere neden olabilir. Bu durum özellikle işe alım, kredi onayları ve sağlık teşhisi gibi yüksek riskli uygulamalarda kritik öneme sahiptir.
  • Basmakalıp Düşüncelerin Güçlendirilmesi: YZ sistemleri, toplumsal önyargıları yansıtan veriler üzerinde eğitilirse, istemeden zararlı stereotipleri devam ettirebilir.
  • Güven Aşınması: Sistemler, altta yatan önyargılar nedeniyle adil olmayan veya güvenilmez olarak algılanırsa, yapay zeka teknolojilerine olan kamu güveni zarar görebilir. Partnership on AI ve AI Now Institute gibi kuruluşlar, bu daha geniş sosyal etkileri ele almak için çalışmaktadır.

Gerçek Dünyadan Örnekler

  1. Yüz Tanıma Sistemleri: İlk yüz tanıma veri kümeleri genellikle açık tenli erkekleri aşırı temsil ediyordu. Sonuç olarak, ticari sistemler, NIST gibi kurumların ve Algoritmik Adalet Birliği gibi kuruluşların araştırmalarında vurgulandığı gibi, daha koyu tenli kadınlar için önemli ölçüde daha düşük doğruluk göstermiştir. Bu eşitsizlik, fotoğraf etiketlemeden kimlik doğrulama ve kolluk kuvvetlerine kadar çeşitli uygulamalarda risk oluşturmaktadır.
  2. Tıbbi Görüntü Analizi: Tıbbi görüntü analizi kullanarak cilt kanserini tespit etmek için eğitilen bir yapay zeka modeli, eğitim veri kümesi öncelikle açık tenli hastaların görüntülerinden oluşuyorsa, daha koyu cilt tonlarında düşük performans gösterebilir. Bu önyargı, yeterince temsil edilmeyen hasta grupları için teşhislerin atlanmasına veya gecikmesine yol açarak Sağlık Hizmetlerinde Y Z eşitliğini etkileyebilir.

Veri Seti Önyargısını İlgili Kavramlardan Ayırt Etme

Veri Kümesi Yanlılığını benzer terimlerden ayırmak önemlidir:

  • YZ 'de Önyargı: Bu, adil olmayan sonuçlara yol açan herhangi bir sistematik hatayı kapsayan geniş bir terimdir. Veri Seti Önyargısı, YZ'de Önyargının başlıca nedenidir, ancak önyargı algoritmanın kendisinden(Algoritmik Önyargı) veya dağıtım bağlamından da kaynaklanabilir.
  • Algoritmik Önyargı: Bu, başlangıçtaki veri kalitesinden bağımsız olarak modelin mimarisi, öğrenme süreci veya optimizasyon hedefleri tarafından ortaya konan önyargıları ifade eder. Örneğin, bir algoritma azınlık grupları için adalet pahasına genel doğruluğa öncelik verebilir.
  • YZ'de Adalet: Bu, farklı gruplar arasında eşit muameleyi amaçlayan bir YZ sisteminin hedefi veya özelliğidir. Veri Seti Önyargısını ele almak, adaleti sağlamaya yönelik çok önemli bir adımdır, ancak adalet aynı zamanda algoritmik ayarlamaları ve NIST AI Risk Yönetimi Çerçevesi gibi çerçeveler tarafından tanımlanan etik hususları da içerir.
  • Yanlılık-Varyans Değişimi: Bu, makine öğreniminde model karmaşıklığı ile ilgili temel bir kavramdır. Buradaki "önyargı", veri kümelerinde bulunan toplumsal veya istatistiksel önyargılardan farklı olarak, aşırı basit varsayımlardan(yetersiz uyum) kaynaklanan hataları ifade eder.

Veri Seti Önyargısının Ele Alınması

Veri kümesi önyargısının azaltılması, makine öğrenimi iş akışı boyunca proaktif stratejiler gerektirir:

  • Dikkatli Veri Toplama: Hedef dağıtım ortamını yansıtan çeşitli ve temsili veri kaynakları için çaba gösterin. Veri Setleri için Veri Sayfaları gibi çerçeveler kullanarak veri setlerini belgelemek şeffaflığı artırabilir.
  • Veri Ön İşleme ve Artırma: Yeniden örnekleme, veri sentezi ve hedeflenen veri artırımı gibi teknikler, veri kümelerini dengelemeye ve temsili artırmaya yardımcı olabilir. Ultralytics ekosistemindeki araçlar çeşitli artırma yöntemlerini destekler.
  • Önyargı Tespit Araçları: Olası önyargılara karşı veri kümelerini ve modelleri denetlemek için Google'ın What-If Aracı gibi araçları veya Fairlearn gibi kütüphaneleri kullanın.
  • Model Değerlendirmesi: Standart doğruluk ölçümlerinin yanı sıra adalet ölçümlerini kullanarak farklı alt gruplarda model performansını değerlendirin. Model Kartları gibi yöntemler kullanarak bulguları belgeleyin.
  • Platform Desteği: Ultralytics HUB gibi platformlar, veri kümelerini yönetmek, aşağıdaki gibi modelleri eğitmek için araçlar sağlar Ultralytics YOLO11ve titiz model değerlendirmesini kolaylaştırarak geliştiricilerin daha az önyargılı sistemler oluşturmasına yardımcı olur.

Geliştiriciler, veri kümesi yanlılığını bilinçli bir şekilde ele alarak daha sağlam, güvenilir ve eşitlikçi yapay zeka sistemleri oluşturabilirler. "A Survey on Bias and Fairness in Machine Learning" gibi araştırma anketlerinde ve ACM FAccT gibi konferanslardaki tartışmalarda daha fazla bilgi bulunabilir.

Tümünü okuyun