용어집

DBSCAN (Density-Based Spatial Clustering of Applications with Noise, 노이즈 기반 밀도 공간 클러스터링)

밀도 기반 클러스터링 및 이상 탐지를 위한 DBSCAN 탐구. Ultralytics 함께 데이터셋 내 임의의 형태와 노이즈를 식별하는 방법을 알아보세요.

DBSCAN(노이즈를 고려한 밀도 기반 공간 클러스터링)은 밀도를 기반으로 데이터 내 고유한 그룹을 식별하는 강력한 비지도 학습 알고리즘입니다. 구형 클러스터를 가정하거나 사전에 정해진 그룹 수를 요구하는 기존 클러스터링 방법과 달리, DBSCAN은 저밀도 영역으로 분리된 고밀도 영역을 찾아냅니다. 이러한 능력 덕분에 임의의 형태와 크기의 클러스터를 발견할 수 있어, 기본 구조가 알려지지 않은 복잡한 실제 데이터셋 분석에 매우 효과적입니다. 이 알고리즘의 주요 장점은 내장된 이상 탐지 기능으로, 저밀도 영역의 점들을 클러스터에 억지로 포함시키지 않고 자동으로 노이즈로 분류한다는 점입니다.

핵심 개념 및 매개변수

이 알고리즘은 각 데이터 포인트 주변에 근접 영역을 정의하고 해당 근접 영역 내에 속하는 다른 포인트의 수를 계산하는 방식으로 작동합니다. 이 과정을 제어하는 두 가지 주요 하이퍼파라미터가 있으며, 데이터의 특정 특성에 맞추기 위해 신중한 하이퍼파라미터 조정이 필요합니다:

엡실론(eps): 이 매개변수는 이웃을 검색하기 위한 점 주변의 최대 반경을 지정합니다. 이는 "도달 가능성" 거리를 정의합니다.
최소 점수(minPts): 이 매개변수는 엡실론 반경 내에서 밀집된 영역 또는 "핵(core)"을 형성하는 데 필요한 최소 데이터 점의 수를 설정합니다.

이러한 매개변수를 기반으로 DBSCAN은 데이터셋 내 모든 점을 다음 세 가지 유형 중 하나로 분류합니다:

핵심 사항: 적어도 minPts 내부의 이웃들 eps 반경. 이 점들은 클러스터의 내부를 형성한다.
국경 지점: 내부에 있는 점들 eps 핵심점의 반경이지만 보다 적은 minPts 이웃들 자체입니다. 이들은 클러스터의 경계를 형성합니다.
노이즈 포인트: 핵심 포인트나 경계 포인트가 아닌 점들입니다. 이들은 실질적으로 이상치로 취급되며, 이상치 탐지와 같은 작업에 유용합니다.

DBSCAN과 K-평균 클러스터링 비교

기계 학습(ML)의 핵심 기법인 두 방법 중 DBSCAN은 특정 시나리오에서 K-평균 군집화보다 뚜렷한 장점을 제공합니다. K-평균법은 중심점과 유클리드 거리를 기반으로 하며, 클러스터가 볼록하거나 구형이라고 가정하는 경우가 많습니다. 이는 길쭉하거나 초승달 모양의 데이터에서 성능 저하를 초래할 수 있습니다. 반면 DBSCAN의 밀도 기반 접근법은 데이터 분포의 자연스러운 윤곽을 따라갈 수 있게 합니다.

또 다른 중요한 차이점은 초기화에 있습니다. K-Means는 사용자가 클러스터 수(k)를 사전에 지정해야 하는데, 사전 지식 없이 이를 결정하는 것은 어려울 수 있습니다. DBSCAN은 데이터 밀도로부터 클러스터 수를 자연스럽게 추론합니다. 또한 K-Means는 모든 점을 특정 그룹에 강제 배정함으로써 클러스터 중심을 왜곡할 수 있어 이상치에 민감합니다. 반면 DBSCAN은 데이터를 노이즈로 분류하는 기능을 통해 유효한 클러스터가 데이터 이상치에 오염되는 것을 방지하므로, 예측 모델링과 같은 후속 작업에 더 깨끗한 결과를 보장합니다.

실제 애플리케이션

DBSCAN은 공간 분석과 강력한 잡음 처리가 필요한 산업 분야에서 널리 적용됩니다.

지리공간 분석: 도시 계획 및 물류 분야에서 분석가들은 DBSCAN을 활용해 배송 차량이나 차량 공유 서비스의 GPS 좌표를 군집화합니다. 고밀도 하차 구역을 식별함으로써 기업은 경로 계획과 창고 위치를 최적화할 수 있습니다. 예를 들어, 물류 분야의 인공지능은 종종 효율성 향상을 위해 배송 지점을 군집화하는 작업을 포함합니다.
비전 기반 이상 감지: 제조 현장에서 YOLO26과 같은 모델로 구동되는 시각 검사 시스템은 detect 결함을 detect 수 있습니다. DBSCAN은 제품 지도 상에서 이러한 결함의 좌표를 클러스터링할 수 있습니다. 고립된 탐지 결과는 센서 노이즈로 간주되어 무시될 수 있지만, 밀집된 클러스터는 체계적인 제조 결함을 나타내며 품질 검사를 위한 경보를 발령합니다.

코드 예시: 클러스터링 검출 중심점

컴퓨터 비전 워크플로우에서 개발자들은 종종 Ultralytics 플랫폼 객체 탐지기를 훈련시킨 후 결과를 후처리하는 방법입니다. 다음 예시는 sklearn 탐지된 객체의 중심점을 클러스터링하는 라이브러리입니다. 이는 공간적으로 연관된 탐지 결과를 그룹화하는 데 도움이 되며, 잠재적으로 여러 개체를 병합할 수 있습니다. 경계 상자 동일한 객체 또는 객체 집합을 식별하기 위한

import numpy as np
from sklearn.cluster import DBSCAN

# Simulated centroids of objects detected by YOLO26
# [x, y] coordinates representing object locations
centroids = np.array(
    [
        [100, 100],
        [102, 104],
        [101, 102],  # Cluster 1 (Dense group)
        [200, 200],
        [205, 202],  # Cluster 2 (Another group)
        [500, 500],  # Noise (Outlier)
    ]
)

# Initialize DBSCAN with a radius (eps) of 10 and min_samples of 2
# This groups points close to each other
clustering = DBSCAN(eps=10, min_samples=2).fit(centroids)

# Labels: 0, 1 are cluster IDs; -1 represents noise
print(f"Cluster Labels: {clustering.labels_}")
# Output: [ 0  0  0  1  1 -1]

딥 러닝과의 통합

DBSCAN은 고전적인 알고리즘이지만 현대적인 딥러닝과 효과적으로 결합됩니다. 예를 들어, 컨볼루션 신경망에서 추출된 고차원 특징들은 (CNN)에서 추출된 고차원 특징은 DBSCAN 적용 전에 PCA나 t-SNE 같은 차원 축소 기법을 통해 축소될 수 있습니다. 이 하이브리드 접근법은 단순히 픽셀 위치가 아닌 의미적 유사성에 기반하여 복잡한 이미지 데이터를 클러스터링할 수 있게 합니다. 이는 특히 라벨링된 훈련 데이터가 부족한 비지도 학습 시나리오에서 유용하며, 연구자들이 방대한 양의 라벨링되지 않은 이미지 아카이브를 효율적으로 정리하는 데 도움을 줍니다.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise, 노이즈 기반 밀도 공간 클러스터링)

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

핵심 개념 및 매개변수

DBSCAN과 K-평균 클러스터링 비교

실제 애플리케이션

코드 예시: 클러스터링 검출 중심점

딥 러닝과의 통합

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

단안 깊이 추정이란 무엇인가? 개요

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 커뮤니티 가입