용어집

데이터 정리

데이터 정리를 통해 AI 및 ML을 위한 고품질의 정확한 데이터 세트를 확보하는 방법을 알아보세요. 효율적인 정리 기법으로 모델 성능을 개선하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 정리란 머신러닝(ML) 및 인공지능(AI) 애플리케이션에서 사용할 수 있도록 원시 데이터를 준비 및 정제하여 품질, 일관성, 관련성을 보장하는 프로세스입니다. 여기에는 오류를 식별 및 수정하고, 누락된 값을 채우고, 중복을 제거하고, 균일한 서식을 지정하는 작업이 포함됩니다. 정확하고 신뢰할 수 있는 ML 모델을 훈련하려면 고품질 데이터가 필수적이며, 데이터 정리는 이를 달성하기 위한 기본 단계입니다.

데이터 정리가 중요한 이유

데이터 정리는 모델의 성능이 학습에 사용되는 데이터의 품질과 직결되기 때문에 AI와 ML의 맥락에서 매우 중요합니다. 더럽거나 일관되지 않은 데이터는 부정확한 예측, 편향된 결과, 신뢰할 수 없는 인사이트로 이어질 수 있습니다. 데이터 정리는 데이터가 정확하고 완전하며 형식이 올바른지 확인함으로써 모델 성능을 향상시키고 과적합 또는 미적합과 같은 문제를 방지하는 데 도움이 됩니다.

주요 이점

  • 정확도 향상: 깨끗한 데이터를 통해 모델은 의미 있는 패턴을 학습하여 예측 능력을 향상시킬 수 있습니다. 머신 러닝에서 정확도의 중요성에 대해 자세히 알아보세요.
  • 편향성 감소: 데이터를 정리하면 데이터 세트 편향성을 최소화하여 공정하고 균형 잡힌 모델 학습을 보장할 수 있습니다.
  • 효율성 향상: 잘 준비된 데이터는 데이터 전처리 단계의 속도를 높여 계산 오버헤드를 줄여줍니다.

데이터 정리 단계

  1. 오류 식별: 통계 도구 또는 시각화를 사용하여 누락된 값, 이상값 또는 잘못된 항목과 같은 불일치를 감지합니다. 예를 들어, 혼동 행렬을 사용하여 라벨이 지정된 데이터 세트의 분류 오류를 분석할 수 있습니다.
  2. 누락된 데이터 처리: 데이터 집합의 컨텍스트에 따라 대입 기법으로 공백을 채우거나 불완전한 레코드를 제거합니다.
  3. 중복 항목 제거: 중복 항목을 식별하고 제거하여 데이터의 고유성과 정확성을 보장합니다.
  4. 서식 표준화: 날짜, 텍스트 또는 숫자 값과 같은 필드에 일관된 서식을 지정합니다.
  5. 데이터 검증: 외부 소스 또는 도메인 지식과 데이터를 교차 검증합니다.
  6. 노이즈 제거: 의미 있는 기능에 집중하기 위해 관련 없는 데이터 요소를 필터링합니다.

주석이 달린 데이터 준비에 대한 자세한 지침은 데이터 전처리 가이드를 참조하세요.

AI 및 ML의 데이터 정리

AI 및 ML 워크플로에서 데이터 정리는 광범위한 데이터 전처리 파이프라인의 예비 단계 중 하나인 경우가 많습니다. 데이터가 정리되면 데이터를 증강, 정규화하거나 학습, 검증, 테스트 세트로 분할할 수 있습니다.

실제 애플리케이션

  • 의료: 의료 AI 시스템에서 데이터 정리는 환자 기록, 이미징 데이터 또는 실험실 결과를 처리하는 데 필수적입니다. 예를 들어, 의료 이미지 분석에 사용되는 의료 이미지를 정리하면 정확한 이상 징후 감지 및 진단을 보장할 수 있습니다.
  • 소매업: 리테일 애플리케이션에는 고객 행동을 분석하거나 재고를 최적화하기 위해 거래 데이터를 정리하는 작업이 포함되는 경우가 많습니다. 중복을 제거하거나 제품 식별자를 표준화하면 추천 시스템의 정확도를 높일 수 있습니다.

실제 데이터 정리의 예

예시 1: 금융 사기 탐지

금융 기관은 사기 탐지를 위한 머신러닝 모델을 학습시키기 위해 거래 데이터를 수집합니다. 원시 데이터 세트에는 '거래 위치' 필드에 누락된 값과 일부 거래에 대한 중복 항목이 포함되어 있습니다. 데이터 정리에는 다음이 포함됩니다:

  • 사용자가 가장 자주 찾는 위치를 사용하여 누락된 값을 채웁니다.
  • 중복 항목을 제거하여 탐지 모델의 왜곡을 방지합니다.
  • 거래 금액과 같은 숫자 필드를 표준화하여 일관된 확장을 보장합니다.

이 프로세스는 데이터 세트의 품질을 개선하여 모델이 오류나 불일치로 인해 방해받지 않고 사기 패턴을 정확하게 식별할 수 있도록 합니다.

예제 2: 농업 수확량 예측

AI 기반 농업에서 센서는 토질, 기상 조건, 작물의 건강 상태에 대한 데이터를 수집합니다. 원시 데이터에는 센서 오작동이나 데이터 전송 오류로 인한 노이즈가 포함되어 있는 경우가 많습니다. 이상값을 제거하고 누락된 판독값을 채우는 등 데이터를 정리하면 최적의 심기 시기나 예상 수확량을 예측하는 모델을 학습할 때 데이터 세트의 신뢰도가 높아집니다. 농업 분야의 AI에 대해 자세히 알아보세요.

도구 및 기술

간단한 스프레드시트 소프트웨어부터 고급 프로그래밍 라이브러리까지, 여러 도구와 플랫폼이 데이터 정리를 지원합니다. 대규모 프로젝트의 경우, 데이터 정리 워크플로우를 Ultralytics HUB와 같은 플랫폼과 통합하면 프로세스를 간소화하고 다음과 같은 AI 모델과의 원활한 호환성을 보장할 수 있습니다. Ultralytics YOLO.

공통 도구

  • 팬더: 데이터 조작 및 정리를 위한 Python 라이브러리입니다.
  • Dask: 메모리보다 큰 데이터 세트를 처리하기 위한 라이브러리입니다.
  • OpenRefine: 지저분한 데이터를 정리하고 변환하는 도구입니다.

관련 개념

  • 데이터 라벨링: 정리 후에는 지도 학습 작업을 준비하기 위해 데이터에 레이블을 지정해야 하는 경우가 많습니다.
  • 데이터 증강: 정리된 데이터를 보강하여 다양성을 높이고 모델 일반화를 개선할 수 있습니다.
  • 데이터 드리프트: 모델 성능에 영향을 줄 수 있는 시간 경과에 따른 데이터 분포의 변화를 모니터링합니다.

데이터 정리는 정확하고 효율적이며 영향력 있는 모델을 위한 토대를 마련하는 AI 및 ML 파이프라인의 중요한 단계입니다. 도구와 모범 사례를 활용하면 데이터가 산업 전반에 걸쳐 의미 있는 인사이트와 혁신을 이끌어낼 수 있도록 준비됩니다.

모두 보기