데이터 세트 편향은 머신 러닝(ML)에서 모델을 학습시키는 데 사용되는 데이터가 모델이 배포될 실제 환경의 다양성과 복잡성을 체계적으로 나타내지 못하는 중요한 문제입니다. 이러한 불일치는 데이터 수집, 샘플링 또는 주석 처리 과정의 결함으로 인해 발생합니다. 따라서 편향된 데이터 세트에 대해 학습된 모델은 유사한 데이터를 사용하는 평가 지표에서는 잘 작동하지만 보이지 않는 새로운 데이터나 다른 인구 통계 그룹에 적용할 때는 일반화, 부정확성, 불공정성을 보일 수 있습니다. AI의 편향성 관련 논의에서 강조한 바와 같이 데이터 세트 편향성을 해결하는 것은 신뢰할 수 있고 효과적이며 공평한 AI 시스템을 구축하는 데 필수적입니다.
데이터 세트 편향의 유형
여러 가지 형태의 편향이 데이터 집합에 침투하여 왜곡된 모델 결과를 초래할 수 있습니다. 이러한 유형을 이해하는 것이 편향성 완화를 위한 첫 번째 단계입니다:
- 선택 편향: 데이터 수집 프로세스에서 특정 데이터 하위 집합을 다른 데이터보다 선호하여 대표성이 없는 샘플이 생성될 때 발생합니다. 예를 들어 특정 시간대에만 트래픽 데이터를 수집하면 다른 시간대의 패턴을 놓칠 수 있습니다.
- 샘플링 편향: 수집된 샘플이 대상 집단의 비율을 정확하게 반영하지 못하는 특정 유형의 선택 편향입니다. 무작위가 아닌 샘플링 방법을 사용하면 종종 이러한 문제가 발생할 수 있습니다.
- 측정 편향: 데이터 측정 또는 주석 단계에서 부정확성 또는 불일치로 인해 발생합니다. 여기에는 센서에 결함이 있거나 다른 어노테이터가 수행한 데이터 라벨링의 주관적인 불일치가 포함될 수 있습니다.
- 레이블 편향: 데이터 요소에 할당된 레이블이 주관적이거나 일관성이 없거나 주석 작성자의 암묵적인 편견을 반영하는 경우 발생하며, 확증 편향 설명과 같은 요소의 영향을 받을 수 있습니다.
- 대표성 편향: 데이터 세트가 실제 세계에 존재하는 특정 그룹이나 속성을 과소 대표하여 해당 그룹에 대해 모델이 제대로 작동하지 않을 때 발생합니다.
데이터 집합 편향의 실제 사례
데이터 세트 편향은 다양한 애플리케이션에서 실제 상당한 결과를 초래할 수 있습니다:
- 얼굴 인식 시스템: 초기의 많은 얼굴 인식 용어집 시스템은 주로 밝은 피부색의 남성 얼굴이 주를 이루는 데이터 세트에 대해 학습되었습니다. 그 결과, 얼굴 인식의 인구통계학적 효과에 관한 NIST 연구에 따르면 이러한 시스템은 피부색이 더 어두운 사람이나 여성 얼굴을 가진 사람을 식별할 때 상당히 낮은 정확도를 보이는 경우가 많았습니다.
- 의료 이미지 분석: 피부암을 감지하도록 설계된 AI 모델은 주로 피부가 하얀 사람의 이미지로 훈련될 수 있습니다. 다양한 인구 집단에 배포할 경우, 학습 데이터에 대표 이미지가 부족하여 피부색이 어두운 개인의 악성 종양을 정확하게 감지하지 못할 수 있으며, 이는 의료 AI 연구의 편향성 문제를 부각시키고 의료 분야에서 AI의 효과에 영향을 미칠 수 있습니다.
데이터 세트 편향성 식별 및 완화
데이터 세트 편향성을 감지하려면 데이터 소스, 수집 방법, 특징 및 레이블의 분포에 대한 면밀한 분석이 필요합니다. 기술에는 탐색적 데이터 분석, 하위 그룹 성과를 비교하는 통계 테스트, 데이터 시각화를 통해 불균형을 발견하는 방법이 포함됩니다.
일단 식별되면 완화 전략에는 다음이 포함됩니다:
- 더 많은 대표 데이터 수집: 소외된 그룹과 시나리오를 포함하도록 데이터 수집 노력을 확대합니다.
- 데이터 증강: 데이터 증강 용어집에 자세히 설명된 대로, 이미지 회전, 자르기 또는 색상 이동과 같은 기술을 Ultralytics YOLO 같은 모델과 통합된 도구를 사용하여 적용하면 데이터 다양성을 높이는 데 도움이 될 수 있습니다.
- 재샘플링 기법: 소수 클래스를 오버샘플링하거나 다수 클래스를 언더샘플링하여 데이터셋을 조정합니다.
- 알고리즘 공정성 기법: 모델 학습 또는 후처리 과정에서 공정성을 높이기 위해 고안된 알고리즘을 구현하는 것입니다. AI 공정성 360 툴킷(IBM Research) 과 같은 도구에서 이를 위한 리소스를 제공합니다.
- 다양한 벤치마크 데이터 세트 사용: 다양성으로 알려진 표준화된 벤치마크 데이터 세트에서 모델 평가하기.
관련 개념
데이터 세트 편향은 AI의 다른 몇 가지 중요한 개념과 밀접하게 연관되어 있습니다:
- 알고리즘 편향: 데이터 세트 편향은 데이터에서 비롯되지만 알고리즘 편향은 모델의 설계 또는 학습 프로세스에서 비롯되며, 기존 편향을 증폭시키거나 새로운 편향을 도입할 수 있습니다.
- AI의 공정성: 이 분야는 개인과 그룹을 공평하게 대우하는 AI 시스템을 개발하는 데 중점을 두며, 종종 데이터 세트 및 알고리즘 편향의 측정과 완화를 포함합니다.
- AI 윤리: 편향된 모델은 차별과 피해를 지속시킬 수 있기 때문에 데이터 세트 편향은 주요 윤리적 문제입니다. 보다 광범위한 윤리적 프레임워크는 책임감 있는 AI 개발을 유도하며, AI 파트너십(PAI)과 같은 단체에서 이를 지지하고 있습니다.
- 설명 가능한 AI(XAI): 모델 예측을 더욱 투명하게 만드는 기술은 데이터 세트의 편향이 결과에 영향을 미치는지 여부를 식별하는 데 도움이 될 수 있습니다.
AI 편향성 이해 블로그 및 Google 책임 있는 AI 관행과 같은 리소스에서 설명한 대로 데이터 세트 편향성을 이해하고 선제적으로 해결하는 것은 신뢰할 수 있는 AI 시스템을 만드는 데 매우 중요합니다. Microsoft 책임 있는 AI 리소스 및 공정성, 책임성 및 투명성에 관한 ACM 컨퍼런스(FAccT) 와 같은 단체의 연구 및 리소스는 이 문제를 해결하기 위한 방법을 계속 발전시키고 있습니다.