용어집

데이터 정리

AI 및 ML 프로젝트를 위한 마스터 데이터 정리. 오류를 수정하고, 데이터 품질을 개선하고, 모델 성능을 효과적으로 향상하는 기술을 알아보세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 정리는 데이터 세트에서 오류, 불일치, 부정확성, 손상된 기록을 식별하고 수정 또는 제거하는 필수적인 프로세스입니다. 데이터의 정확성, 일관성, 사용 가능성을 보장하며, 이는 신뢰할 수 있고 효과적인 인공 지능(AI)머신 러닝(ML) 모델을 구축하는 데 있어 기본이 됩니다. 요리하기 전에 양질의 재료를 준비한다고 생각하면, 깨끗한 데이터가 없으면 데이터 과학에서 흔히 볼 수 있는 '쓰레기 투입, 쓰레기 배출' 원칙에 따라 최종 결과물(AI 모델)에 결함이 있을 가능성이 높습니다. 깨끗한 데이터는 더 나은 모델 성능, 더 신뢰할 수 있는 인사이트, AI의 편향성 감소로 이어집니다.

AI 및 머신 러닝의 관련성

AI와 ML에서 학습 데이터의 품질은 모델 정확도와 보이지 않는 새로운 데이터에 대한 일반화 능력에 직접적인 영향을 미칩니다. 데이터 정리는 ML 워크플로우의 중요한 첫 단계로, 기능 엔지니어링 및 모델 훈련과 같은 작업에 선행하는 경우가 많습니다. 다음과 같은 모델 Ultralytics YOLO와 같은 모델은 객체 감지나 인스턴스 세분화와 같은 까다로운 작업에 사용되며, 효과적으로 학습하기 위해 깨끗하고 잘 구조화된 데이터 세트에 크게 의존합니다. 레이블이 잘못 지정된 이미지, 일관되지 않은 경계 상자 형식, 누락된 값 또는 중복 항목과 같은 오류는 실제 애플리케이션에서 성능을 크게 저하시키고 신뢰할 수 없는 예측으로 이어질 수 있습니다. 데이터 정리를 통해 이러한 문제를 해결하면 모델이 원시 데이터에 존재하는 노이즈나 오류 대신 의미 있는 패턴을 학습하여 과적합과 같은 문제를 방지하는 데 도움이 됩니다.

일반적인 데이터 정리 작업

데이터 정리에는 데이터 집합 내의 특정 문제에 맞춘 다양한 기술이 포함됩니다. 일반적인 작업은 다음과 같습니다:

  • 누락된 데이터 처리하기: 누락된 값이 있는 항목을 식별하고 이를 제거할지, 추정(대입)할지, 누락된 데이터에 강력한 알고리즘을 사용할지 결정합니다. 상황에 따라 누락된 데이터를 처리하는 다양한 전략이 존재합니다.
  • 오류 및 불일치 수정: 오타 수정, 단위 또는 형식 표준화(예: 날짜 형식, 대문자), 모순되는 데이터 요소 해결. 이는 데이터 무결성을 유지하는 데 매우 중요합니다.
  • 중복 레코드 제거: 분석 또는 모델 학습을 왜곡할 수 있는 동일하거나 거의 동일한 항목을 식별하고 제거합니다.
  • 이상값 처리하기: 다른 관측값과 크게 다른 데이터 포인트를 감지합니다. 원인에 따라 이상값을 제거, 수정 또는 유지할 수 있습니다. 다양한 이상값 감지 방법을 사용할 수 있습니다.
  • 구조적 오류 해결: 일관되지 않은 명명 규칙이나 잘못 배치된 항목 등 데이터 구조와 관련된 문제를 해결합니다.

실제 애플리케이션

데이터 정리는 수많은 AI/ML 애플리케이션에서 필수적인 요소입니다:

  1. 의료 이미지 분석: 뇌종양 데이터 세트와 같은 의료 데이터 세트에서 데이터 정리에는 저품질 또는 손상된 스캔(예: 흐릿한 이미지) 제거, 이미지 형식 표준화(예: DICOM), 잘못 표시된 진단 수정, HIPAA 같은 규정에 따라 환자 데이터 개인정보 보호가 유지되도록 하는 작업 등이 포함됩니다. 깨끗한 데이터는 신뢰할 수 있는 진단 모델을 훈련하는 데 필수적입니다. 미국 국립보건원(NIH)은 생물의학 연구에서 데이터 품질을 강조합니다. 의료 분야의 AI에 대해 자세히 알아보세요.
  2. 소매 재고 관리: SKU-110K 데이터 세트를 사용하는 시스템과 같이 컴퓨터 비전을 사용하여 재고를 추적하는 시스템의 경우, 이미지에서 잘못 식별된 제품을 수정하고 스캔 오류로 인한 중복 항목을 제거하며 여러 데이터 소스에서 제품 이름이나 코드를 표준화하고 수요 예측 또는 추천 시스템에 사용되는 판매 기록의 불일치를 처리하는 등의 작업이 포함됩니다. 이를 통해 정확한 재고 계산과 효율적인 공급망 운영을 보장하여 AI를 통한 소매업 효율성 달성에 기여합니다. 리테일용Google Cloud AI와 같은 플랫폼은 종종 깨끗한 입력 데이터에 의존합니다.

데이터 정리와 관련 개념 비교

데이터 정리와 관련 데이터 준비 단계를 구분하는 것이 중요합니다:

  • 데이터 전처리: 데이터 정리를 포괄하는 광범위한 용어이지만 정규화 (숫자 특징 크기 조정), 범주형 변수 인코딩, 특징 추출 등 ML 모델을 위해 데이터를 준비하기 위한 다른 변환도 포함합니다. 정리가 오류를 수정하는 데 중점을 두는 반면, 전처리는 알고리즘을 위한 데이터 형식 지정에 중점을 둡니다. 자세한 내용은 주석이 달린 데이터 전처리에 대한Ultralytics 가이드를 참조하세요.
  • 데이터 라벨링: 지도 학습을 위해 이미지의 개체 주위에 경계 상자를 그리는 등 원시 데이터에 유익한 태그나 주석(라벨)을 추가하는 프로세스입니다. 데이터 정리에는 품질 검사 중에 확인된 잘못된 라벨을 수정하는 작업이 포함될 수 있지만, 라벨링의 초기 작업과는 구별됩니다. 데이터 수집 및 주석 가이드는 라벨링에 대한 인사이트를 제공합니다. Ultralytics HUB는 라벨이 지정된 데이터 세트를 관리할 수 있는 도구를 제공합니다.
  • 데이터 증강: 이 기술은 기존 데이터의 수정된 복사본을 생성하여(예: 이미지 회전, 밝기 변경) 학습 데이터 세트의 크기와 다양성을 인위적으로 증가시킵니다. 데이터 증강은 모델의 일반화와 견고성을 개선하는 것을 목표로 하는 반면, 데이터 정리는 원본 데이터의 품질을 개선하는 데 중점을 둡니다. 2025년 데이터 증강에 대한 궁극적인 가이드에서 자세히 알아보세요.

데이터 정리는 기본 데이터의 건전성을 보장함으로써 AI 시스템의 신뢰성과 성능을 크게 향상시키는 기본적이고 반복적인 작업입니다. Pandas 라이브러리와 같은 도구는 Python ML 워크플로우에서 데이터 조작 및 정리 작업에 일반적으로 사용됩니다. 엄격한 정리를 통해 데이터 품질을 보장하는 것은 신뢰할 수 있는 AI를 개발하는 데 필수적이며, 특히 복잡한 컴퓨터 비전(CV) 작업이나 COCO 또는 ImageNet과 같은 대규모 벤치마크 데이터 세트로 작업할 때 더욱 중요합니다.

모두 보기