용어집

데이터 정리

AI 및 ML 프로젝트를 위한 마스터 데이터 정리. 오류를 수정하고, 데이터 품질을 개선하고, 모델 성능을 효과적으로 향상하는 기술을 알아보세요!

데이터 정리는 데이터 세트에서 오류, 불일치, 부정확성, 손상된 기록을 식별하고 수정 또는 제거하는 필수적인 프로세스입니다. 데이터의 정확성, 일관성, 사용 가능성을 보장하며, 이는 신뢰할 수 있고 효과적인 인공 지능(AI) 및 머신 러닝(ML) 모델을 구축하는 데 있어 기본이 됩니다. 요리하기 전에 양질의 재료를 준비한다고 생각하면, 깨끗한 데이터가 없으면 데이터 과학에서 흔히 볼 수 있는 '쓰레기 투입, 쓰레기 배출' 원칙에 따라 최종 결과물(AI 모델)에 결함이 있을 가능성이 높습니다. 깨끗한 데이터는 더 나은 모델 성능, 더 신뢰할 수 있는 인사이트, AI의 편향성 감소로 이어집니다.

AI 및 머신 러닝의 관련성

AI와 ML에서 학습 데이터의 품질은 모델 정확도와 보이지 않는 새로운 데이터에 대한 일반화 능력에 직접적인 영향을 미칩니다. 데이터 정리는 ML 워크플로우의 중요한 첫 단계로, 기능 엔지니어링 및 모델 훈련과 같은 작업에 선행하는 경우가 많습니다. 다음과 같은 모델 Ultralytics YOLO와 같은 모델은 객체 감지나 인스턴스 세분화와 같은 까다로운 작업에 사용되며, 효과적으로 학습하기 위해 깨끗하고 잘 구조화된 데이터 세트에 크게 의존합니다. 레이블이 잘못 지정된 이미지, 일관되지 않은 경계 상자 형식, 누락된 값 또는 중복 항목과 같은 오류는 실제 애플리케이션에서 성능을 크게 저하시키고 신뢰할 수 없는 예측으로 이어질 수 있습니다. 데이터 정리를 통해 이러한 문제를 해결하면 모델이 원시 데이터에 존재하는 노이즈나 오류 대신 의미 있는 패턴을 학습하여 과적합과 같은 문제를 방지하는 데 도움이 됩니다.

일반적인 데이터 정리 작업

데이터 정리에는 데이터 집합 내의 특정 문제에 맞춘 다양한 기술이 포함됩니다. 일반적인 작업은 다음과 같습니다:

누락된 데이터 처리하기: 누락된 값이 있는 항목을 식별하고 이를 제거할지, 추정(대입)할지, 누락된 데이터에 강력한 알고리즘을 사용할지 결정합니다. 상황에 따라 누락된 데이터를 처리하는 다양한 전략이 존재합니다.
오류 및 불일치 수정: 오타 수정, 단위 또는 형식 표준화(예: 날짜 형식, 대문자), 모순되는 데이터 요소 해결. 이는 데이터 무결성을 유지하는 데 매우 중요합니다.
중복 레코드 제거: 분석 또는 모델 학습을 왜곡할 수 있는 동일하거나 거의 동일한 항목을 식별하고 제거합니다.
이상값 처리하기: 다른 관측값과 크게 다른 데이터 포인트를 감지합니다. 원인에 따라 이상값을 제거, 수정 또는 유지할 수 있습니다. 다양한 이상값 감지 방법을 사용할 수 있습니다.
구조적 오류 해결: 일관되지 않은 명명 규칙이나 잘못 배치된 항목 등 데이터 구조와 관련된 문제를 해결합니다.

실제 애플리케이션

데이터 정리는 수많은 AI/ML 애플리케이션에서 필수적인 요소입니다:

의료 이미지 분석: 뇌종양 데이터 세트와 같은 의료 데이터 세트에서 데이터 정리에는 저품질 또는 손상된 스캔(예: 흐릿한 이미지) 제거, 이미지 형식 표준화(예: DICOM), 잘못 표시된 진단 수정, HIPAA 같은 규정에 따라 환자 데이터 개인정보 보호가 유지되도록 하는 작업 등이 포함됩니다. 깨끗한 데이터는 신뢰할 수 있는 진단 모델을 훈련하는 데 필수적입니다. 미국 국립보건원(NIH)은 생물의학 연구에서 데이터 품질을 강조합니다. 의료 분야의 AI에 대해 자세히 알아보세요.
소매 재고 관리: SKU-110K 데이터 세트를 사용하는 시스템과 같이 컴퓨터 비전을 사용하여 재고를 추적하는 시스템의 경우, 이미지에서 잘못 식별된 제품을 수정하고 스캔 오류로 인한 중복 항목을 제거하며 여러 데이터 소스에서 제품 이름이나 코드를 표준화하고 수요 예측 또는 추천 시스템에 사용되는 판매 기록의 불일치를 처리하는 등의 작업이 포함됩니다. 이를 통해 정확한 재고 계산과 효율적인 공급망 운영을 보장하여 AI를 통한 소매업 효율성 달성에 기여합니다. 리테일용Google Cloud AI와 같은 플랫폼은 종종 깨끗한 입력 데이터에 의존합니다.