용어집

DBSCAN(노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링)

머신 러닝에서 패턴을 식별하고 노이즈를 처리하며 복잡한 데이터 세트를 분석하기 위한 강력한 클러스터링 알고리즘인 DBSCAN에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

DBSCAN(잡음이 있는 애플리케이션의 밀도 기반 공간 클러스터링)은 머신 러닝(ML)데이터 마이닝에서 널리 사용되는 클러스터링 알고리즘입니다. 비지도 학습 방법의 범주에 속하며, 미리 정의된 레이블 없이 데이터에서 패턴을 발견합니다. DBSCAN은 특징 공간에서 서로 밀집되어 있는 데이터 포인트를 그룹화하여 임의의 형태의 클러스터를 효과적으로 식별하는 데 탁월합니다. 주요 강점은 저밀도 영역에서 고립된 점을 이상값 또는 노이즈로 표시할 수 있어 실제 데이터 세트에 강력하다는 점입니다. 클러스터 수를 미리 지정해야 하는 알고리즘과 달리, DBSCAN은 데이터 밀도에 따라 클러스터를 결정하기 때문에 인공지능(AI) 내에서 다양한 데이터 탐색 작업에 유연성을 제공합니다.

DBSCAN 작동 방식

DBSCAN은 밀도 도달 가능성 개념을 기반으로 클러스터를 식별합니다. 클러스터를 저밀도 영역으로 구분된 고밀도 영역으로 간주합니다. 알고리즘의 동작은 주로 두 가지 매개 변수에 의해 제어됩니다:

  1. 엡실론(eps): 이 매개변수는 두 데이터 포인트 중 하나가 다른 데이터 포인트의 이웃으로 간주될 수 있는 두 데이터 포인트 사이의 최대 거리를 정의합니다. 기본적으로 각 포인트 주위에 반경을 만듭니다.
  2. 최소 포인트(minPts): 이 매개변수는 해당 포인트가 '핵심 포인트'로 분류되기 위해 포인트의 엡-인근(포인트 자체 포함) 내에 필요한 최소 데이터 포인트 수를 지정합니다.

이러한 매개변수에 따라 데이터 포인트는 세 가지 유형으로 분류됩니다:

  • 핵심 포인트: 포인트는 최소한 다음이 포함된 경우 핵심 포인트입니다. minPts 이웃에 있는 eps 반경입니다. 이러한 포인트는 일반적으로 클러스터 내부에 위치합니다.
  • 테두리 포인트: 핵심 포인트에서 도달할 수 있는 지점(즉, 코어 포인트 내에서 eps 핵심 점의 반경)이 없지만 minPts 이웃 자체입니다. 경계점은 클러스터의 가장자리에 있습니다.
  • 노이즈 포인트(이상값): 핵심 지점도 경계 지점도 아닌 지점을 노이즈로 간주합니다. 이러한 포인트는 일반적으로 저밀도 영역에서 고립되어 있습니다.

알고리즘은 방문하지 않은 임의의 데이터 포인트를 선택하는 것으로 시작됩니다. 해당 포인트가 핵심 포인트인지 확인합니다. eps-이웃. 핵심 지점인 경우 새 클러스터가 형성되고 알고리즘은 밀도 도달 가능한 모든 지점(이웃의 핵심 및 경계 지점)을 이 클러스터에 재귀적으로 추가합니다. 선택한 포인트가 노이즈 포인트인 경우 일시적으로 노이즈 포인트로 표시되고 알고리즘은 방문하지 않은 다음 포인트로 이동합니다. 이 프로세스는 모든 포인트가 방문되어 클러스터에 할당되거나 노이즈로 표시될 때까지 계속됩니다. 원래 방법론에 대해 자세히 알아보려면 연구 논문을 참조하세요: "노이즈가 있는 대규모 공간 데이터베이스에서 클러스터를 발견하기 위한 밀도 기반 알고리즘".

주요 장점과 단점

DBSCAN은 여러 가지 이점을 제공합니다:

  • 임의의 모양을 처리합니다: K-평균과 같은 알고리즘과 달리 DBSCAN은 구형이 아닌 클러스터를 찾을 수 있습니다.
  • 클러스터 수를 미리 정의할 필요가 없습니다: 클러스터 수는 밀도에 따라 알고리즘에 의해 결정됩니다.
  • 이상값에 강합니다: 노이즈 포인트를 식별하고 처리하는 메커니즘이 내장되어 있습니다.

하지만 이 또한 한계가 있습니다:

  • 파라미터 감도: 클러스터링 결과의 품질은 다음 중 어떤 것을 선택하느냐에 따라 크게 달라집니다. epsminPts. 최적의 매개 변수를 찾는 것은 어려울 수 있습니다. 다음과 같은 도구 SCIKIT-Learn 오퍼 구현 조정할 수 있습니다.
  • 다양한 밀도로 인한 어려움: 클러스터의 밀도가 상당히 다른 데이터 세트에서는 단일 eps-minPts 조합이 모든 클러스터에서 제대로 작동하지 않을 수 있습니다.
  • 고차원 데이터: 고차원 공간에서는 밀도 개념이 의미가 없어지는'차원의 저주'로 인해 성능이 저하될 수 있습니다.

DBSCAN과 다른 클러스터링 방법 비교

DBSCAN은 다른 클러스터링 알고리즘, 특히 K-평균 클러스터링과 자주 비교됩니다. 주요 차이점은 다음과 같습니다:

  • 클러스터 모양: K-평균은 클러스터가 구형이고 크기가 같다고 가정하는 반면, DBSCAN은 임의의 모양의 클러스터를 찾을 수 있습니다.
  • 클러스터 수: K-평균은 사용자가 클러스터 수를 지정해야 합니다(k)을 미리 설정하는 반면, DBSCAN은 이를 자동으로 결정합니다.
  • 이상값 처리: K-평균은 모든 포인트를 클러스터에 할당하므로 이상값에 민감합니다. DBSCAN은 이상값을 노이즈로 명시적으로 식별하고 격리합니다.
  • 계산 복잡성: K-평균은 일반적으로 특히 대규모 데이터 세트에서 DBSCAN보다 빠르지만, DBSCAN의 복잡성은 매개변수 선택과 KD트리와 같은 데이터 구조 최적화에 따라 달라질 수 있습니다.

실제 애플리케이션

밀집된 그룹을 찾아내고 이상값을 격리하는 DBSCAN의 기능은 다양한 애플리케이션에 적합합니다:

  • 이상 징후 탐지: 정상적인 행동에서 벗어난 비정상적인 패턴을 식별합니다. 예를 들어, 정상적인 지출이 밀집된 클러스터에 비해 고립된 지점처럼 보이는 신용 카드 사기 거래를 탐지하거나 사이버 보안을 위해 네트워크 트래픽 데이터에서 침입을 식별하는 것이 그 예입니다. 이상 징후 탐지를 위한 Vision AI의 관련 개념을 살펴보세요.
  • 공간 데이터 분석: 지리적 또는 공간적 데이터 분석. 예를 들어, 고객 위치를 그룹화하여 시장 세그먼트를 파악하거나, 도시의 범죄 핫스팟을 분석하거나(스마트 시티의 AI), 토지 이용 분류 또는 환경 모니터링을 위한 위성 이미지 분석에서 패턴을 파악할 수 있습니다.
  • 생물학적 데이터 분석: 유전자 발현 데이터를 클러스터링하거나 단백질 데이터베이스에서 구조를 식별합니다.
  • 추천 시스템: 희박한 상호 작용 데이터를 기반으로 비슷한 선호도를 가진 사용자를 그룹화합니다(추천 시스템 개요).

DBSCAN 및 Ultralytics

그리고 Ultralytics 에코시스템은 주로 다음과 같은 지도 학습 모델에 중점을 둡니다. Ultralytics YOLO 와 같은 지도 학습 모델을 중심으로 물체 감지, 이미지 분류, 이미지 세분화 등의 작업을 수행합니다. 비지도 방식인 DBSCAN은 다음과 같은 모델의 핵심 학습 루프에 직접 통합되지는 않습니다. YOLOv8 또는 YOLO11과 같은 모델의 핵심 학습 루프에 직접 통합되지는 않지만, 그 원리는 컴퓨터 비전(CV)데이터 분석의 더 넓은 맥락에서 관련이 있습니다. 데이터 밀도와 분포를 이해하는 것은 학습을 위해 데이터 세트를 준비하고 분석할 때나 추론 후 공간적 근접성을 기반으로 감지된 객체를 클러스터링하는 등 모델 결과물을 후처리할 때 매우 중요합니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트 관리 및 시각화를 위한 도구를 제공하며, 이는 DBSCAN과 같은 클러스터링 알고리즘을 적용할 수 있는 탐색적 데이터 분석 기법을 보완할 수 있습니다.

모두 보기