용어집

차원 감소

차원 축소 기법으로 고차원 데이터를 간소화하세요. 지금 바로 ML 모델 성능, 시각화 및 효율성을 개선하세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

차원 축소는 필수 정보는 보존하면서 특징 또는 변수의 수를 줄여 복잡한 데이터 세트를 단순화하는 데 사용되는 머신러닝(ML)의 중요한 기법입니다. 특징의 수가 많은 고차원 데이터는 계산 비용 증가, 과적합, 시각화의 어려움과 같은 문제를 일으킬 수 있습니다. 차원 축소는 데이터를 저차원 공간으로 변환하여 분석 및 모델링에 더 관리하기 쉽고 효율적으로 만들어 이러한 문제를 해결합니다.

차원 감소의 유형

차원 축소 기법에는 크게 특징 선택과 특징 추출이라는 두 가지 유형이 있습니다.

기능 선택

특징 선택은 현재 작업과의 관련성 및 중요도에 따라 원래 특징의 하위 집합을 선택하는 것입니다. 이 방법은 특징의 원래 의미를 유지하므로 결과를 더 쉽게 해석할 수 있습니다. 일반적인 피처 선택 방법에는 필터 방법, 래퍼 방법, 임베디드 방법이 있습니다. 필터 방법은 상관관계나 상호 정보와 같은 통계적 측정값을 사용하여 각 특징을 독립적으로 평가합니다. 래퍼 방법은 모델을 학습시키고 그 성능을 평가하여 특징의 하위 집합을 평가합니다. 임베디드 방법은 의사 결정 트리 또는 올가미와 같은 정규화 기법과 같이 모델 훈련 과정의 일부로 특징 선택을 통합합니다.

특징 추출

특징 추출은 원래의 특징을 결합하거나 변형하여 새로운 특징을 생성합니다. 이 접근 방식은 종종 데이터를 더 간결하게 표현하지만, 새로운 특징이 원래 변수의 관점에서 직접적으로 해석되지 않을 수 있습니다. 널리 사용되는 특징 추출 기법에는 주성분 분석(PCA) 과 t-분산 확률적 이웃 임베딩(t-SNE)이 있습니다. PCA는 데이터의 최대 분산을 포착하는 원본 특징의 선형 조합인 주성분을 식별합니다. t-SNE는 데이터 포인트 간의 국부적 유사성을 보존하여 고차원 데이터를 2차원 또는 3차원으로 시각화하는 데 특히 유용합니다.

차원 감소의 응용

차원 축소는 AI와 ML의 다양한 영역에서 널리 사용됩니다. 다음은 몇 가지 주목할 만한 응용 사례입니다:

  • 데이터 시각화: 고차원 데이터를 2차원 또는 3차원으로 축소하면 데이터 내의 패턴과 관계를 더 쉽게 시각화하고 탐색할 수 있습니다.
  • 노이즈 감소: 차원 감소는 가장 중요한 기능에 집중함으로써 노이즈를 필터링하고 데이터의 신호 대 잡음비를 개선하는 데 도움이 될 수 있습니다.
  • 계산 효율성: 더 적은 수의 기능으로 작업하면 학습 및 추론에 필요한 컴퓨팅 리소스가 줄어들어 처리 시간이 빨라집니다.
  • 과적합 방지: 차원이 높은 데이터는 학습 데이터에 과적합하여 보이지 않는 데이터에 대해 제대로 작동하지 않는 모델로 이어질 수 있습니다. 차원 축소는 모델을 단순화하고 일반화 능력을 개선하여 이러한 위험을 완화하는 데 도움이 됩니다.
  • 모델 성능 향상: 차원 축소는 관련성이 없거나 중복된 기능을 제거함으로써 머신러닝 모델의 정확성과 효율성을 향상시킬 수 있습니다.

실제 AI/ML 애플리케이션의 사례

이미지 인식

이미지 인식에서 이미지는 종종 많은 수의 픽셀로 표현되며, 각 픽셀은 피처로 간주됩니다. PCA와 같은 차원 축소 기술을 적용하면 서로 다른 이미지를 구별하는 데 필요한 필수 정보는 유지하면서 특징의 수를 크게 줄일 수 있습니다. 이는 컴퓨터 비전 모델의 학습 속도를 높일 뿐만 아니라 이미지 데이터 세트의 스토리지 요구 사항을 줄이는 데도 도움이 됩니다. 예를 들어, PCA는 얼굴 이미지 데이터 세트를 저차원 공간으로 변환하는 데 사용할 수 있으며, 여기서 각각의 새로운 특징은 얼굴 특징의 가장 중요한 변화를 포착하는 주요 구성 요소를 나타냅니다.

자연어 처리

자연어 처리(NLP)에서 텍스트 문서는 종종 백 오브 워드 또는 TF-IDF 모델과 같은 고차원 벡터를 사용하여 표현됩니다. 잠재 디리클레 할당(LDA) 또는 비음수 행렬 인수분해(NMF)와 같은 차원 축소 기술을 사용하면 텍스트의 의미론적 의미를 유지하면서 이러한 벡터의 차원을 줄일 수 있습니다. 예를 들어, LDA는 문서 모음 내에서 주제를 식별하여 각 문서를 이러한 주제들의 혼합으로 나타낼 수 있습니다. 이렇게 하면 데이터의 차원이 줄어들고 텍스트를 보다 해석하기 쉽게 표현할 수 있습니다.

결론

차원 축소는 고차원 데이터를 관리하고 계산 효율성을 개선하며 모델 성능을 향상시키기 위한 머신 러닝의 필수 기술입니다. 특징 선택 또는 특징 추출을 통해 특징의 수를 줄임으로써 실무자는 보다 강력하고 효율적인 모델을 만들 수 있습니다. 차원 축소의 원리와 응용을 이해하는 것은 AI와 ML에서 복잡한 데이터 세트로 작업하는 모든 사람에게 중요합니다. 시각화를 위해 데이터를 단순화하든, 더 나은 성능을 위해 모델을 최적화하든, 차원 축소는 많은 머신 러닝 프로젝트의 성공에 중요한 역할을 합니다. Ultralytics YOLO 모델을 사용하는 경우, 차원 축소 기술을 통합하면 특히 고해상도 이미지나 대규모 데이터 세트를 다룰 때 학습 시간이 단축되고 예측이 더 정확해질 수 있습니다. 이미지 분류를 위한 차원 감소에 관한 연구 논문에서 설명한 것처럼, 이미지 데이터를 컨볼루션 신경망(CNN)에 입력하기 전에 이미지 데이터의 차원을 줄이기 위해 PCA와 같은 기법이 일반적으로 사용됩니다. 또한 자동 인코더를 사용하여 비지도 방식으로 효율적인 데이터 코딩을 학습하여 Ultralytics YOLO 과 같은 모델의 성능을 더욱 향상시킬 수 있습니다.

모두 보기