용어집

K-메인 클러스터링

데이터를 클러스터로 그룹화하는 핵심적인 비지도 학습 알고리즘인 K-평균 클러스터링에 대해 알아보세요. 그 과정과 응용, 비교를 살펴보세요!

K-평균 클러스터링은 데이터 마이닝과 머신 러닝(ML)에 사용되는 기본적인 비지도 학습 알고리즘입니다. 이 알고리즘의 주요 목표는 데이터 집합을 미리 지정된 수의 서로 겹치지 않는 별개의 하위 그룹, 즉 "클러스터"로 분할하는 것입니다. 이름에서 "K"는 이 클러스터의 수를 나타냅니다. 이 알고리즘은 유사성에 따라 데이터 포인트를 그룹화하는 방식으로 작동하며, 유사성은 종종 포인트 간의 유클리드 거리로 측정됩니다. 각 클러스터는 해당 클러스터 내의 모든 데이터 포인트의 평균인 중심이라고 하는 중심점으로 표시됩니다. 이는 레이블이 지정되지 않은 데이터에서 기본 패턴과 구조를 발견하기 위한 강력하면서도 간단한 방법입니다.

K-Means 작동 방식

K-평균 알고리즘은 반복적으로 작동하여 모든 데이터 요소에 대한 최적의 클러스터 할당을 찾습니다. 이 프로세스는 몇 가지 간단한 단계로 나눌 수 있습니다:

  1. 초기화: 먼저 클러스터의 수인 K를 선택합니다. 그런 다음 데이터 집합의 특징 공간 내에 K개의 초기 중심을 무작위로 배치합니다.
  2. 할당 단계: 학습 데이터의 각 데이터 포인트가 가장 가까운 중심점에 할당됩니다. 이렇게 하면 K개의 초기 클러스터가 형성됩니다.
  3. 업데이트 단계: 각 클러스터의 중심은 클러스터에 할당된 모든 데이터 포인트의 평균을 구하여 다시 계산됩니다.
  4. 반복: 클러스터 할당이 더 이상 변경되지 않거나 최대 반복 횟수에 도달할 때까지 할당 및 업데이트 단계가 반복됩니다. 이 시점에서 알고리즘이 수렴되고 최종 클러스터가 형성됩니다. 보다 직관적인 이해를 위해 K-Means 알고리즘에 대한 시각적 설명을 볼 수 있습니다.

K에 적합한 값을 선택하는 것은 매우 중요하며, 종종 도메인 지식이 필요하거나 엘보우 방법이나 실루엣 스코어와 같은 방법을 사용해야 합니다. 구현은 Scikit-learn과 같은 라이브러리에서 널리 사용할 수 있습니다.

실제 애플리케이션

K-Means는 단순성과 효율성으로 인해 다양한 도메인에 적용되고 있습니다:

  • 고객 세분화: 리테일 및 마케팅 분야에서 기업은 K-Means를 사용하여 구매 내역, 인구 통계 또는 행동에 따라 고객을 별개의 세그먼트로 그룹화합니다. 예를 들어, 기업은 '고액 지출 충성도 고객' 군집과 '예산에 민감한 비정기적 쇼핑객' 군집을 식별할 수 있습니다. 이를 통해 클러스터링을 사용한 고객 세분화에 대한 연구에서 설명한 대로 타겟 마케팅 전략을 수립할 수 있습니다.
  • 이미지 압축: 컴퓨터 비전(CV)에서 K-Means는 차원 감소의 한 형태인 색상 양자화에 사용됩니다. 비슷한 픽셀 색상을 K 클러스터로 그룹화하여 각 픽셀의 색상을 클러스터의 중심 색상으로 대체합니다. 이렇게 하면 이미지의 색상 수가 줄어들어 이미지가 효과적으로 압축됩니다. 이 기술은 이미지 분할의 기본 개념입니다.
  • 문서 분석: 이 알고리즘은 용어 빈도에 따라 문서를 클러스터링하여 주제를 식별하거나 유사한 문서를 그룹화하여 대용량 텍스트 데이터 세트를 정리하는 데 도움을 줍니다.

K-수단 대 관련 개념

K-Means를 다른 머신러닝 알고리즘과 구별하는 것이 중요합니다:

  • K-네이버 이웃(KNN): 흔히 혼동하는 부분입니다. K-Means는 레이블이 지정되지 않은 데이터를 그룹화하는 비지도 클러스터링 알고리즘입니다. 이와 대조적으로 KNN은 K-최근 이웃의 레이블을 기반으로 새 데이터 포인트의 레이블을 예측하는 지도 분류 또는 회귀 알고리즘입니다. K-Means는 그룹을 생성하는 반면, KNN은 미리 정의된 그룹으로 분류합니다.
  • 서포트 벡터 머신(SVM): SVM은 분류에 사용되는 지도 학습 모델로, 클래스를 구분하기 위한 최적의 하이퍼플레인을 찾습니다. K-Means는 비지도 방식이며 미리 정의된 레이블 없이 유사성을 기반으로 데이터를 그룹화합니다.
  • DBSCAN: 밀도 기반 클러스터링 알고리즘으로, K-Means와 달리 임의의 형태의 클러스터를 식별할 수 있으며 이상값에 강합니다. K-Means는 클러스터가 구형이며 이상값의 영향을 많이 받는다고 가정합니다.

K-Means는 데이터 탐색을 위한 기본적인 도구이지만, 실시간 개체 감지와 같은 복잡한 작업은 고급 모델에 의존합니다. Ultralytics YOLO와 같은 최신 탐지기는 뛰어난 성능을 위해 정교한 딥 러닝 기술을 사용합니다. 하지만 앵커 박스 그룹화와 같은 클러스터링의 개념은 초기 오브젝트 탐지기 개발의 기초가 되었습니다. 이러한 작업을 위한 데이터 세트 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨