용어집

차원 감소

차원 축소 기법으로 고차원 데이터를 간소화하세요. 지금 바로 ML 모델 성능, 시각화 및 효율성을 개선하세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

차원 축소는 머신러닝(ML) 및 데이터 분석에서 데이터 세트의 특징(또는 차원) 수를 줄이면서 의미 있는 정보를 최대한 보존하는 데 사용되는 중요한 프로세스입니다. 컴퓨터 비전자연어 처리(NLP) 같은 분야에서 흔히 볼 수 있는 고차원 데이터는 계산 비효율성, 모델 복잡성, 과적합의 위험으로 이어질 수 있습니다. 차원을 줄임으로써 모델을 단순화하고, 학습 속도를 개선하고, 성능을 향상시키고, 데이터 시각화를 용이하게 하는 것이 목표입니다.

차원 감소가 중요한 이유는 무엇인가요?

고차원 데이터 세트로 작업할 때 흔히'차원의 저주'라고 불리는 몇 가지 문제가 발생합니다. 특징의 수가 증가함에 따라 데이터 공간의 양이 기하급수적으로 증가하여 통계적 유의성을 유지하기 위해 훨씬 더 많은 데이터가 필요합니다. 차원 축소는 이러한 문제를 완화하는 데 도움이 됩니다:

  1. 계산 비용 절감: 차원이 적을수록 알고리즘 학습에 필요한 계산이 줄어들어 모델 개발 및 추론 속도가 빨라집니다.
  2. 모델 성능 개선: 관련성이 없거나 중복된 기능을 제거하면 노이즈를 줄이고 보이지 않는 데이터에 대해 모델이 더 잘 일반화할 수 있어 정확도 및 기타 성능 지표가 개선되는 경우가 많습니다.
  3. 데이터 시각화 활성화: 인간은 3차원 이상의 데이터를 시각화하는 데 어려움을 겪습니다. 주성분 분석(PCA) 또는 t 분산 확률 이웃 임베딩(t-SNE) 과 같은 기술을 사용하여 데이터를 2차원 또는 3차원으로 축소하면 시각적으로 탐색하고 인사이트를 발견할 수 있습니다.
  4. 중복성 최소화: 고차원 데이터에는 종종 상호 연관된 특징이 포함되어 있습니다. 차원 축소 기술을 사용하면 피처를 결합하거나 선택하여 데이터를 보다 간결하게 표현할 수 있습니다.

차원 축소 방법

차원을 줄이는 데는 두 가지 기본 접근 방식이 있으며, 데이터 전처리 중에 자주 적용됩니다:

  1. 기능 선택: 여기에는 작업과 가장 관련성이 높은 원본 피처의 하위 집합을 선택하는 작업이 포함됩니다. 통계적 점수 또는 모델 중요도에 따라 피처의 순위가 매겨지고 중요도가 낮은 피처는 삭제됩니다. 중요한 점은 선택된 피처가 원래 형태에서 변경되지 않는다는 것입니다.
  2. 특징 추출: 이 방법은 원본 특징을 결합하거나 변형하여 새로운 저차원 특징을 생성합니다. 특징 선택과 달리 결과물은 원본 특징과 다르지만 필수 정보를 포착합니다. 널리 사용되는 특징 추출 기법에는 PCA, 선형 판별 분석(LDA), 자동 인코더 등이 있습니다. Scikit-learn과 같은 많은 라이브러리에서 이러한 방법의 구현을 제공합니다.

차원 축소와 피처 엔지니어링을 구분하는 것이 중요한데, 피처 엔지니어링은 새로운 피처를 만들거나 기존 피처를 변형하거나 차원을 줄이는 것을 한 단계로 포함하는 광범위한 프로세스입니다.

실제 애플리케이션

차원 감소는 다양한 영역에 걸쳐 널리 적용됩니다:

결론

차원 축소는 AI와 ML에서 최신 데이터 세트의 복잡성을 관리하는 데 필수적인 기술입니다. 특징 선택 또는 특징 추출을 통해 데이터를 단순화함으로써 실무자는 보다 효율적이고 강력하며 해석 가능한 모델을 구축할 수 있습니다. 차원 축소를 이해하고 적용하는 것은 Ultralytics 허브와 같은 플랫폼에서 더 빠르게 학습하거나 계산 요구 사항이 낮은 모델을 배포하는 등 워크플로우를 최적화하는 데 매우 중요합니다.

모두 보기