용어집

DBSCAN(노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링)

머신 러닝에서 패턴을 식별하고 노이즈를 처리하며 복잡한 데이터 세트를 분석하기 위한 강력한 클러스터링 알고리즘인 DBSCAN에 대해 알아보세요.

DBSCAN(잡음이 있는 애플리케이션의 밀도 기반 공간 클러스터링)은 밀집도가 높은 데이터 포인트를 함께 그룹화하여 저밀도 영역에 홀로 있는 이상값 포인트로 표시하는 데 널리 사용되는 비지도 학습 알고리즘입니다. 다른 클러스터링 방법과 달리 DBSCAN은 클러스터의 수를 미리 지정할 필요가 없습니다. 임의의 형태의 클러스터를 찾을 수 있고 노이즈에 강하기 때문에 데이터 마이닝과 데이터 분석에 강력한 도구가 될 수 있습니다. 이 알고리즘은 1996년 마틴 에스터, 한스-피터 크리겔, 요르그 샌더, 샤오웨이 쉬의 논문에서 처음 소개되어 이 분야의 기초 작업이 되었습니다.

DBSCAN 작동 방식

DBSCAN은 주어진 공간에서 데이터 포인트의 밀도를 기반으로 클러스터를 정의합니다. 두 가지 주요 매개변수로 작동합니다:

  • 엡실론(ε 또는 eps): 이 매개변수는 데이터 요소 주변의 이웃 반경을 정의합니다. 이 거리 내의 모든 포인트는 이웃으로 간주됩니다.
  • 최소 포인트(MinPts): 밀집된 영역 또는 클러스터를 형성하는 데 필요한 최소 데이터 포인트 수(포인트 자체 포함)입니다.

이러한 매개변수를 기반으로 DBSCAN은 모든 데이터 포인트를 세 가지 유형 중 하나로 분류합니다:

  1. 핵심 포인트: 포인트는 최소한 다음이 포함된 경우 핵심 포인트입니다. MinPts 그 안에 eps 이웃. 이러한 지점은 클러스터의 내부입니다.
  2. 테두리 포인트: 포인트가 경계점인 경우 경계점은 eps 의 이웃이지만 그 자체로 핵심 포인트가 되기에는 충분한 이웃이 없습니다. 이러한 포인트는 클러스터의 에지를 형성합니다.
  3. 노이즈 포인트(이상값): 포인트가 핵심 포인트도 아니고 경계 포인트도 아닌 경우 노이즈로 간주됩니다. 이는 클러스터에 속하지 않는 이상값입니다.

알고리즘은 임의의 지점에서 시작하여 그 주변을 검색합니다. 핵심 지점인 경우 새 클러스터가 생성됩니다. 그런 다음 알고리즘은 직접 도달 가능한 모든 이웃을 클러스터에 추가하여 클러스터를 반복적으로 확장하며, 이 과정은 클러스터에 더 이상 포인트를 추가할 수 없을 때까지 계속됩니다. 시각적 구현은 scikit-learn 문서에서 확인할 수 있습니다.

실제 AI/ML 애플리케이션

노이즈를 식별하고 비선형 클러스터를 발견하는 DBSCAN의 능력은 다양한 영역에서 매우 유용합니다:

  • 지리공간 분석: 도시 계획가와 지리학자들은 공간 데이터를 분석할 때 DBSCAN을 사용합니다. 예를 들어, 교통 사고의 GPS 좌표를 클러스터링하여 사고 핫스팟을 식별할 수 있습니다. 마찬가지로, 보고된 질병 사례의 군집을 찾아 역학자들이 발병을 추적하는 데에도 사용할 수 있습니다. 일본 지리정보청과 같은 조직에서도 유사한 밀도 기반 매핑 방법을 사용합니다.
  • 금융 분야 이상 거래 탐지: 금융 부문에서는 사기 거래를 탐지하는 데 DBSCAN을 사용할 수 있습니다. 고객의 일반적인 지출 패턴을 클러스터링하여 이러한 클러스터를 벗어나는 거래(즉, 노이즈로 분류된 거래)는 추가 조사를 위해 플래그를 지정할 수 있습니다. 이 접근 방식은 최신 사기 탐지 시스템의 핵심 구성 요소입니다.

DBSCAN 및 울트라 애널리틱스

Ultralytics 에코시스템은 주로 객체 감지, 이미지 분류, 인스턴스 세분화 등의 작업을 위한 Ultralytics YOLO와 같은 지도 학습 모델에 중점을 두고 있습니다. DBSCAN은 비지도 방식이지만, 그 원리는 컴퓨터 비전(CV)의 더 넓은 맥락에서 관련이 있습니다.

예를 들어, 번화한 거리의 비디오에서 YOLO11과 같은 모델로 객체 감지를 수행한 후, 감지된 경계 상자의 중심 좌표에 DBSCAN을 적용할 수 있습니다. 이 후처리 단계에서는 개별 보행자 감지를 별개의 군중으로 그룹화하여 더 높은 수준의 장면 이해를 제공할 수 있습니다. 훈련용 데이터 세트를 준비할 때 데이터 분포를 이해하는 것도 중요합니다. DBSCAN을 사용한 탐색적 데이터 분석은 데이터 세트에서 패턴이나 이상 징후를 발견할 수 있으며, 이를 Ultralytics HUB와 같은 플랫폼을 사용하여 관리하고 시각화할 수 있습니다.

관련 용어와 구별하기

  • K-Means 클러스터링: 가장 큰 차이점은 K-Means는 사용자가 클러스터 수를 지정해야 한다는 점입니다(k)를 미리 입력해야 하는 반면, DBSCAN은 클러스터 수를 자동으로 결정합니다. 또한 K-Means는 모든 점을 강제로 클러스터에 포함시키기 때문에 비구형 클러스터에 어려움을 겪으며 이상값에 민감합니다. DBSCAN은 임의의 형태의 클러스터를 찾는 데 탁월하며 이상값을 노이즈로 효과적으로 분리합니다.
  • 계층적 클러스터링: 이 방법은 덴드로그램이라고 하는 클러스터 트리를 생성합니다. 중첩된 클러스터 구조를 시각화하는 데 유용하지만, 대규모 데이터 세트에서는 DBSCAN에 비해 계산 비용이 더 많이 들 수 있습니다. 올바른 클러스터링 알고리즘을 선택하기 위한 가이드에 설명된 대로 데이터 세트 크기와 원하는 출력에 따라 두 가지 방법 중 하나를 선택해야 합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨