머신 러닝에서 패턴을 식별하고 노이즈를 처리하며 복잡한 데이터 세트를 분석하기 위한 강력한 클러스터링 알고리즘인 DBSCAN에 대해 알아보세요.
DBSCAN(잡음이 있는 애플리케이션의 밀도 기반 공간 클러스터링)은 머신 러닝(ML) 및 데이터 마이닝에서 널리 사용되는 클러스터링 알고리즘입니다. 비지도 학습 방법의 범주에 속하며, 미리 정의된 레이블 없이 데이터에서 패턴을 발견합니다. DBSCAN은 특징 공간에서 서로 밀집되어 있는 데이터 포인트를 그룹화하여 임의의 형태의 클러스터를 효과적으로 식별하는 데 탁월합니다. 주요 강점은 저밀도 영역에서 고립된 점을 이상값 또는 노이즈로 표시할 수 있어 실제 데이터 세트에 강력하다는 점입니다. 클러스터 수를 미리 지정해야 하는 알고리즘과 달리, DBSCAN은 데이터 밀도에 따라 클러스터를 결정하기 때문에 인공지능(AI) 내에서 다양한 데이터 탐색 작업에 유연성을 제공합니다.
DBSCAN은 밀도 도달 가능성 개념을 기반으로 클러스터를 식별합니다. 클러스터를 저밀도 영역으로 구분된 고밀도 영역으로 간주합니다. 알고리즘의 동작은 주로 두 가지 매개 변수에 의해 제어됩니다:
이러한 매개변수에 따라 데이터 포인트는 세 가지 유형으로 분류됩니다:
minPts
이웃에 있는 eps
반경입니다. 이러한 포인트는 일반적으로 클러스터 내부에 위치합니다.eps
핵심 점의 반경)이 없지만 minPts
이웃 자체입니다. 경계점은 클러스터의 가장자리에 있습니다.알고리즘은 방문하지 않은 임의의 데이터 포인트를 선택하는 것으로 시작됩니다. 해당 포인트가 핵심 포인트인지 확인합니다. eps
-이웃. 핵심 지점인 경우 새 클러스터가 형성되고 알고리즘은 밀도 도달 가능한 모든 지점(이웃의 핵심 및 경계 지점)을 이 클러스터에 재귀적으로 추가합니다. 선택한 포인트가 노이즈 포인트인 경우 일시적으로 노이즈 포인트로 표시되고 알고리즘은 방문하지 않은 다음 포인트로 이동합니다. 이 프로세스는 모든 포인트가 방문되어 클러스터에 할당되거나 노이즈로 표시될 때까지 계속됩니다. 원래 방법론에 대해 자세히 알아보려면 연구 논문을 참조하세요: "노이즈가 있는 대규모 공간 데이터베이스에서 클러스터를 발견하기 위한 밀도 기반 알고리즘".
DBSCAN은 여러 가지 이점을 제공합니다:
하지만 이 또한 한계가 있습니다:
eps
및 minPts
. 최적의 매개 변수를 찾는 것은 어려울 수 있습니다. 다음과 같은 도구 SCIKIT-Learn 오퍼 구현 조정할 수 있습니다.eps
-minPts
조합이 모든 클러스터에서 제대로 작동하지 않을 수 있습니다.DBSCAN은 다른 클러스터링 알고리즘, 특히 K-평균 클러스터링과 자주 비교됩니다. 주요 차이점은 다음과 같습니다:
k
)을 미리 설정하는 반면, DBSCAN은 이를 자동으로 결정합니다.밀집된 그룹을 찾아내고 이상값을 격리하는 DBSCAN의 기능은 다양한 애플리케이션에 적합합니다:
그리고 Ultralytics 에코시스템은 주로 다음과 같은 지도 학습 모델에 중점을 둡니다. Ultralytics YOLO 와 같은 지도 학습 모델을 중심으로 물체 감지, 이미지 분류, 이미지 세분화 등의 작업을 수행합니다. 비지도 방식인 DBSCAN은 다음과 같은 모델의 핵심 학습 루프에 직접 통합되지는 않습니다. YOLOv8 또는 YOLO11과 같은 모델의 핵심 학습 루프에 직접 통합되지는 않지만, 그 원리는 컴퓨터 비전(CV) 및 데이터 분석의 더 넓은 맥락에서 관련이 있습니다. 데이터 밀도와 분포를 이해하는 것은 학습을 위해 데이터 세트를 준비하고 분석할 때나 추론 후 공간적 근접성을 기반으로 감지된 객체를 클러스터링하는 등 모델 결과물을 후처리할 때 매우 중요합니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트 관리 및 시각화를 위한 도구를 제공하며, 이는 DBSCAN과 같은 클러스터링 알고리즘을 적용할 수 있는 탐색적 데이터 분석 기법을 보완할 수 있습니다.