용어집

DBSCAN(노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링)

머신 러닝에서 패턴을 식별하고 노이즈를 처리하며 복잡한 데이터 세트를 분석하기 위한 강력한 클러스터링 알고리즘인 DBSCAN에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

DBSCAN(노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링)은 머신 러닝(ML)데이터 마이닝에 널리 사용되는 클러스터링 알고리즘입니다. 비지도 학습 방법의 일종으로, 밀집도가 높은 데이터 포인트를 함께 그룹화하여 저밀도 영역에 홀로 있는 포인트를 이상값 또는 노이즈로 표시합니다. DBSCAN은 K-평균과 같은 파티셔닝 방법과 달리 임의의 형태의 클러스터를 발견할 수 있고 클러스터의 수를 미리 지정할 필요가 없어 인공지능(AI) 내 다양한 데이터 탐색 작업에 활용될 수 있습니다.

DBSCAN 작동 방식

DBSCAN은 밀도 도달 가능성이라는 개념을 기반으로 작동합니다. 클러스터는 밀도가 낮은 영역으로 구분된 데이터 포인트의 밀도가 높은 영역으로 정의됩니다. 이 알고리즘은 '엡실론'(eps)과 '최소 포인트'(minPts)라는 두 가지 주요 매개변수에 의존합니다. 엡실론은 두 점을 이웃으로 간주할 수 있는 두 점 사이의 최대 거리를 정의하며, 기본적으로 각 점 주변의 반경을 설정합니다. 최소 포인트는 한 포인트가 '핵심 포인트'로 분류되기 위해 포인트의 엡실론 이웃(포인트 자체 포함) 내에서 필요한 최소 포인트 수를 지정합니다.

포인트는 다음과 같이 분류됩니다:

  • 핵심 포인트: 엡실론 반경 내에 최소 최소한의 이웃이 있는 점입니다. 이들은 클러스터의 내부를 형성합니다.
  • 경계 지점: 코어 포인트에서 도달할 수 있지만 자체적으로 최소 포인트 이웃이 없는 포인트입니다. 클러스터의 가장자리에 위치합니다.
  • 노이즈 포인트(이상값): 중심점도 경계점도 아닌 지점입니다. 저밀도 영역에 존재합니다.

알고리즘은 임의의 지점에서 시작하여 그 엡실론 이웃을 검색합니다. 핵심 지점인 경우 새 클러스터가 시작됩니다. 그런 다음 알고리즘은 직접 도달 가능한 모든 포인트(이웃)를 추가하고 반복적으로 이웃을 탐색하여 이 클러스터를 확장합니다. 이 프로세스는 클러스터에 더 이상 포인트를 추가할 수 없을 때까지 계속됩니다.

주요 이점

DBSCAN은 다른 클러스터링 알고리즘에 비해 몇 가지 장점이 있습니다:

  • 노이즈를 효과적으로 처리합니다: 다른 많은 알고리즘이 어려움을 겪는 노이즈 포인트를 명시적으로 식별하고 레이블을 지정합니다.
  • 임의의 클러스터 모양: 클러스터가 볼록하거나 구형이라고 가정하는 K-평균 클러스터링과 같은 알고리즘과 달리 구형이 아닌 클러스터를 찾을 수 있습니다.
  • 클러스터 수를 미리 지정할 필요가 없습니다: 클러스터 수는 데이터의 밀도 구조에 따라 알고리즘에 의해 결정됩니다.

그러나 다음과 같은 선택에 민감할 수 있습니다. epsminPts로 인해 고차원 데이터에서 성능이 저하될 수 있으며, "차원의 저주".

실제 애플리케이션

밀집된 그룹을 찾아내고 이상값을 격리하는 DBSCAN의 기능은 다양한 분야에서 유용하게 활용됩니다:

  1. 이상 징후 탐지: 금융 분야에서 비정상적인 거래 식별, 데이터 보안 강화를 위한 네트워크 침입 탐지, 제조 품질 관리에서 불량품 발견 등 제조 시스템에서 컴퓨터 비전을 보완하는 역할을 합니다.
  2. 지리공간 데이터 분석: 범죄나 질병 발생과 같은 사건의 발생 위치를 지도에 그룹화하여 핫스팟을 식별하거나, 소매점 계획을 위한 고객 분포를 분석하거나, 위성 이미지 분석에서 패턴을 파악할 수 있습니다. 이는 스마트 시티에서 AI를 위한 솔루션을 개발하는 데 도움이 됩니다.

DBSCAN 및 Ultralytics

그리고 Ultralytics 에코시스템은 주로 다음과 같은 지도 학습 모델에 중점을 둡니다. Ultralytics YOLO 와 같은 지도 학습 모델에 중점을 두고 있습니다. DBSCAN은 핵심 YOLO 훈련 루프 내에서 직접 구현되지는 않지만, 밀도 분석의 기본 원리는 이와 관련이 있습니다. 공간 분포와 밀도를 이해하는 것은 데이터 세트를 분석하거나 감지 모델의 결과를 해석할 때(예: 감지된 물체를 클러스터링하는 것) 매우 중요합니다. 또한, Ultralytics HUB는 데이터 집합을 관리하고 분석하기 위한 도구를 제공하며, DBSCAN과 같은 클러스터링 기술이 중요한 역할을 하는 데이터 탐색의 광범위한 컨텍스트에 맞춰져 있습니다.

더 자세한 기술적 세부 사항은 scikit-learn DBSCAN 설명서 또는 원본 연구 논문과 같은 리소스를 참조하세요:"노이즈가 있는 대규모 공간 데이터베이스에서 클러스터를 발견하기 위한 밀도 기반 알고리즘".

모두 보기