용어집

데이터 전처리

머신러닝을 위한 마스터 데이터 전처리. 모델 정확도와 성능을 높이기 위한 정리, 확장 및 인코딩과 같은 기술을 학습하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

데이터 전처리는 머신 러닝 파이프라인에서 중요한 단계로, 원시 데이터를 모델 학습에 적합하도록 정리, 변환, 구성하는 작업을 포함합니다. 입력 데이터의 품질은 머신러닝 모델의 성능과 정확도에 큰 영향을 미칩니다. 따라서 강력하고 신뢰할 수 있는 AI 시스템을 구축하려면 효과적인 데이터 전처리가 필수적입니다. 이 프로세스에는 일반적으로 결측값 처리, 이상값 처리, 특징 정규화 또는 표준화, 범주형 변수를 숫자 표현으로 변환하는 작업이 포함됩니다.

데이터 전처리의 중요성

데이터 전처리는 여러 가지 이유로 중요합니다. 첫째, 모델에 입력되는 데이터의 품질을 보장하여 보다 정확하고 신뢰할 수 있는 예측을 이끌어낼 수 있습니다. 원시 데이터에는 종종 모델 성능에 부정적인 영향을 미칠 수 있는 오류, 불일치, 노이즈가 포함되어 있습니다. 데이터를 정리하고 변환하면 이러한 문제를 완화하여 모델 정확도를 향상시킬 수 있습니다. 둘째, 전처리는 데이터의 복잡성을 줄여 모델이 패턴과 관계를 더 쉽게 학습할 수 있도록 도와줍니다. 이를 통해 학습 시간이 단축되고 모델 성능이 더 효율적으로 향상될 수 있습니다. 마지막으로 정규화 및 표준화와 같은 전처리 단계는 머신러닝 알고리즘, 특히 기울기 하강과 같은 특징 척도에 민감한 알고리즘의 안정성과 수렴을 개선하는 데 도움이 될 수 있습니다.

일반적인 데이터 전처리 기법

데이터 전처리에는 일반적으로 몇 가지 기술이 사용됩니다:

  • 데이터 정리: 여기에는 누락된 값을 처리하고, 오류를 수정하고, 데이터의 불일치를 제거하는 작업이 포함됩니다. 누락된 값은 평균, 중앙값 또는 모드 임포트와 같은 다양한 방법이나 K-최근접 이웃 임포트와 같은 고급 기술을 사용하여 임포트할 수 있습니다.
  • 데이터 변환: 여기에는 수치 피처를 표준 범위로 확장하여 값이 큰 피처가 학습 과정을 지배하는 것을 방지하는 정규화 및 표준화와 같은 기술이 포함됩니다.
  • 데이터 축소: 여기에는 필수 정보는 유지하면서 데이터 세트의 크기를 줄이는 작업이 포함됩니다. 주성분 분석(PCA) 과 같은 기술을 사용하여 가장 중요한 특징을 식별함으로써 데이터의 차원을 줄일 수 있습니다.
  • 특징 스케일링: 특징 스케일링은 데이터의 독립 변수 또는 특징의 범위를 정규화하는 데 사용되는 방법입니다. 최소-최대 스케일링 또는 Z-점수 정규화와 같은 기법이 일반적으로 사용됩니다.
  • 특징 인코딩: 범주형 변수는 종종 머신 러닝 모델에서 사용할 수 있도록 숫자 표현으로 인코딩됩니다. 일반적인 인코딩 기술로는 원핫 인코딩과 레이블 인코딩이 있습니다.

실제 애플리케이션에서의 데이터 사전 처리

데이터 전처리는 다양한 실제 AI 및 머신러닝 애플리케이션에서 중요한 역할을 합니다. 다음은 두 가지 구체적인 예시입니다:

  1. 자율주행 차량: 자율주행 차량에서는 카메라, 라이더, 레이더 등 다양한 센서의 데이터를 물체 감지 및 경로 계획과 같은 작업에 사용하기 전에 사전 처리해야 합니다. 전처리 단계에는 노이즈 감소, 이미지 보정, 센서 융합 등이 포함되어 차량 환경을 통합적이고 정확하게 표현할 수 있습니다. Ultralytics YOLO 과 같은 컴퓨터 비전 모델은 고품질 입력 데이터에 의존하여 실시간으로 물체를 정확하게 감지하고 분류합니다.
  2. 의료 이미지 분석: 의료 이미지 분석에서 전처리는 진단 도구의 정확도를 향상시키는 데 필수적입니다. 예를 들어, MRI 또는 CT 스캔 이미지는 종양이나 병변과 같은 중요한 특징을 강조하기 위해 노이즈 감소, 대비 향상, 정규화 등의 전처리 단계를 거칠 수 있습니다. 이렇게 전처리된 이미지는 이미지 분할 및 분류와 같은 작업을 위해 딥러닝 모델을 훈련하는 데 사용되어 질병을 조기에 정확하게 진단하는 데 도움을 줍니다.

데이터 전처리와 기타 관련 용어 비교

데이터 전처리는 광범위한 용어이지만, 데이터 준비 파이프라인에서 다른 관련 개념과 연관되는 경우가 많습니다:

  • 데이터 정리: 데이터 정리란 데이터의 오류, 불일치, 누락된 값을 식별하고 수정하는 데 중점을 둔 데이터 사전 처리의 하위 집합입니다. 데이터 정리는 전처리의 중요한 부분이지만, 데이터 품질 문제에 더 좁게 초점을 맞추고 있습니다. 데이터 수집 및 주석 모범 사례에 대해 자세히 알아보세요.
  • 데이터 증강: 데이터 증강 은 기존 데이터 포인트의 수정된 버전을 생성하여 학습 데이터 세트의 크기를 인위적으로 늘리는 데 사용되는 기술입니다. 이는 대량의 데이터가 필요한 딥러닝 애플리케이션에서 특히 유용합니다. 데이터 증강은 데이터 전처리의 한 형태로 간주될 수 있지만, 특히 학습 데이터에 더 많은 가변성을 도입하여 모델 일반화를 향상시키는 것을 목표로 합니다. 주석이 달린 데이터 전처리에 대해 자세히 알아보세요.
  • 피처 엔지니어링: 피처 엔지니어링은 모델 성능을 개선하기 위해 새로운 피처를 만들거나 기존 피처를 수정하는 것을 포함합니다. 여기에는 상호 작용 용어, 다항식 피처 또는 도메인별 피처를 만드는 것과 같은 기술이 포함될 수 있습니다. 특징 엔지니어링과 데이터 전처리는 모두 데이터의 품질을 개선하는 것을 목표로 하지만, 특징 엔지니어링은 새로운 정보를 생성하는 데 더 중점을 두는 반면 데이터 전처리는 기존 데이터를 정리하고 변환하는 데 중점을 둡니다. Ultralytics 문서에서 모델 훈련 팁과 모델 평가 인사이트를 살펴보세요.

이러한 전처리 기술을 이해하고 적용함으로써 실무자는 고품질 데이터로 머신러닝 모델을 학습시켜 성능, 정확성, 신뢰성을 향상시킬 수 있습니다. 모델 배포 옵션과 모델 배포 모범 사례에 대해 자세히 알아보세요.

모두 보기