용어집

데이터 정리

AI 및 ML 프로젝트를 위한 마스터 데이터 정리. 오류를 수정하고, 데이터 품질을 개선하고, 모델 성능을 효과적으로 향상하는 기술을 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 정리는 모든 머신러닝(ML) 또는 인공 지능(AI) 프로젝트의 데이터 전처리 단계에서 중요한 단계입니다. 여기에는 원시 데이터의 오류, 불일치, 부정확성을 식별하고 수정하여 학습 또는 분석에 사용되는 데이터 세트가 고품질이고 신뢰할 수 있으며 의도한 목적에 적합한지 확인하는 작업이 포함됩니다. ML 모델의 성능은 입력 데이터의 품질에 따라 크게 좌우되므로 이 프로세스는 필수적입니다. 부정확하거나 일관되지 않은 데이터는 잘못된 결과, 모델 성능 저하, 잘못된 결론으로 이어질 수 있습니다.

AI 및 ML에서 데이터 정리의 중요성

AI와 ML의 영역에서 데이터는 알고리즘과 모델을 구동하는 원동력입니다. 고품질 데이터를 통해 모델은 효과적으로 학습하고, 정확한 예측을 하고, 보이지 않는 새로운 데이터로 잘 일반화할 수 있습니다. 데이터 정리는 모델에 공급되는 데이터가 정확하고 일관되며 관련성이 있는지 확인함으로써 이를 달성하는 데 중추적인 역할을 합니다. 적절한 데이터 정리가 이루어지지 않으면 모델이 학습 데이터에서는 잘 작동하지만 새로운 데이터에서는 제대로 작동하지 않는 과적합 또는 모델이 데이터의 기본 패턴을 포착하지 못하는 과소적합과 같은 문제가 발생할 수 있습니다.

일반적인 데이터 정리 기술

데이터 정리에는 데이터의 특성과 특정 문제에 따라 여러 가지 기법이 사용됩니다. 가장 일반적인 기법은 다음과 같습니다:

  • 누락된 값 처리하기: 누락된 데이터는 누락된 값이 있는 데이터 항목을 제거하거나 추정을 통해 해결할 수 있습니다. 추정 방법에는 누락된 값을 피처의 평균, 중앙값 또는 모드로 대체하거나 회귀 추정과 같은 고급 기술을 사용하는 것이 포함됩니다.
  • 이상값 탐지 및 처리: 이상값 또는 나머지 데이터 세트에서 크게 벗어난 데이터 포인트는 분석 결과를 왜곡할 수 있습니다. IQR(사분위수 범위) 방법 또는 Z-score와 같은 기술을 사용하여 이상값을 식별한 다음 제거하거나 변환할 수 있습니다.
  • 중복 제거: 데이터 항목이 중복되면 데이터의 특정 패턴이 과도하게 표현될 수 있습니다. 중복을 식별하고 제거하면 데이터 집합이 기본 분포를 정확하게 반영할 수 있습니다.
  • 데이터 변환: 여기에는 데이터를 분석에 적합한 형식으로 변환하는 작업이 포함됩니다. 일반적인 변환에는 데이터를 특정 범위로 확장하는 정규화와 데이터를 평균 0, 표준 편차 1로 변환하는 표준화가 있습니다. 머신 러닝의 정규화에 대해 자세히 알아보세요.
  • 데이터 축소: 이 기술은 데이터 세트의 필수 특성을 유지하면서 데이터 세트의 크기를 줄이는 것을 목표로 합니다. 차원 축소를 위해 주성분 분석(PCA) 과 같은 기법을 사용할 수 있습니다.
  • 데이터 불연속화: 여기에는 연속형 데이터를 불연속형 간격 또는 범주로 변환하는 작업이 포함되며, 이는 특정 유형의 분석이나 알고리즘에 유용할 수 있습니다.

데이터 정리와 다른 데이터 전처리 단계 비교

데이터 정리는 데이터 전처리의 중요한 구성 요소이지만, 다른 전처리 단계와는 구별됩니다. 데이터 정리는 특히 데이터의 오류와 불일치를 식별하고 수정하는 데 중점을 둡니다. 반면 데이터 변환은 데이터 형식이나 구조를 수정하는 것을 포함하며, 데이터 축소는 필수 정보는 유지하면서 데이터 세트의 크기를 줄이는 것을 목표로 합니다. 데이터 증강은 기존 데이터에서 새로운 데이터 포인트를 생성하여 데이터 집합의 크기를 늘리는 것을 포함합니다. 이러한 각 단계는 분석 및 모델링을 위해 데이터를 준비하는 데 고유한 역할을 합니다.

실제 애플리케이션에서의 데이터 정리 사례

  1. 의료: 의료 이미지 분석에서 데이터 정리에는 아티팩트가 있는 이미지를 제거하고, 일관된 이미지 품질을 보장하며, 이미지 형식을 표준화하는 작업이 포함될 수 있습니다. 예를 들어 종양을 감지하기 위해 의료 이미지 분석 모델을 학습시킬 때는 해상도가 낮거나 잘못된 라벨링이 있는 이미지를 제거하는 것이 중요합니다.
  2. 자율주행 차량: 자율 주행 차량의 학습을 위해서는 물체 감지 및 추적 시스템의 정확성을 보장하기 위해 데이터 정리가 필수적입니다. 여기에는 센서 오작동 중에 수집된 데이터를 제거하고, 라벨이 잘못 지정된 물체를 수정하고, 여러 센서에서 일관되지 않은 데이터를 처리하는 작업이 포함될 수 있습니다.

데이터 정리는 AI 및 ML 프로젝트 수명 주기에서 없어서는 안 될 단계입니다. 데이터의 품질과 일관성을 보장함으로써 보다 정확하고 신뢰할 수 있으며 강력한 모델을 개발할 수 있습니다. 이는 결과적으로 더 나은 의사 결정, 향상된 성능, 데이터에서 도출된 더 가치 있는 인사이트로 이어집니다. 데이터 정리는 반복적인 프로세스이므로 프로젝트가 진행되고 새로운 인사이트를 얻게 되면 정리 단계를 재검토하고 개선해야 하는 경우가 종종 있다는 점에 유의해야 합니다.

모두 보기