데이터 정리란 머신러닝(ML) 및 인공지능(AI) 애플리케이션에서 사용할 수 있도록 원시 데이터를 준비 및 정제하여 품질, 일관성, 관련성을 보장하는 프로세스입니다. 여기에는 오류를 식별 및 수정하고, 누락된 값을 채우고, 중복을 제거하고, 균일한 서식을 지정하는 작업이 포함됩니다. 정확하고 신뢰할 수 있는 ML 모델을 훈련하려면 고품질 데이터가 필수적이며, 데이터 정리는 이를 달성하기 위한 기본 단계입니다.
데이터 정리는 모델의 성능이 학습에 사용되는 데이터의 품질과 직결되기 때문에 AI와 ML의 맥락에서 매우 중요합니다. 더럽거나 일관되지 않은 데이터는 부정확한 예측, 편향된 결과, 신뢰할 수 없는 인사이트로 이어질 수 있습니다. 데이터 정리는 데이터가 정확하고 완전하며 형식이 올바른지 확인함으로써 모델 성능을 향상시키고 과적합 또는 미적합과 같은 문제를 방지하는 데 도움이 됩니다.
주석이 달린 데이터 준비에 대한 자세한 지침은 데이터 전처리 가이드를 참조하세요.
AI 및 ML 워크플로에서 데이터 정리는 광범위한 데이터 전처리 파이프라인의 예비 단계 중 하나인 경우가 많습니다. 데이터가 정리되면 데이터를 증강, 정규화하거나 학습, 검증, 테스트 세트로 분할할 수 있습니다.
금융 기관은 사기 탐지를 위한 머신러닝 모델을 학습시키기 위해 거래 데이터를 수집합니다. 원시 데이터 세트에는 '거래 위치' 필드에 누락된 값과 일부 거래에 대한 중복 항목이 포함되어 있습니다. 데이터 정리에는 다음이 포함됩니다:
이 프로세스는 데이터 세트의 품질을 개선하여 모델이 오류나 불일치로 인해 방해받지 않고 사기 패턴을 정확하게 식별할 수 있도록 합니다.
AI 기반 농업에서 센서는 토질, 기상 조건, 작물의 건강 상태에 대한 데이터를 수집합니다. 원시 데이터에는 센서 오작동이나 데이터 전송 오류로 인한 노이즈가 포함되어 있는 경우가 많습니다. 이상값을 제거하고 누락된 판독값을 채우는 등 데이터를 정리하면 최적의 심기 시기나 예상 수확량을 예측하는 모델을 학습할 때 데이터 세트의 신뢰도가 높아집니다. 농업 분야의 AI에 대해 자세히 알아보세요.
간단한 스프레드시트 소프트웨어부터 고급 프로그래밍 라이브러리까지, 여러 도구와 플랫폼이 데이터 정리를 지원합니다. 대규모 프로젝트의 경우, 데이터 정리 워크플로우를 Ultralytics HUB와 같은 플랫폼과 통합하면 프로세스를 간소화하고 다음과 같은 AI 모델과의 원활한 호환성을 보장할 수 있습니다. Ultralytics YOLO.
데이터 정리는 정확하고 효율적이며 영향력 있는 모델을 위한 토대를 마련하는 AI 및 ML 파이프라인의 중요한 단계입니다. 도구와 모범 사례를 활용하면 데이터가 산업 전반에 걸쳐 의미 있는 인사이트와 혁신을 이끌어낼 수 있도록 준비됩니다.