머신 러닝에서 패턴을 식별하고 노이즈를 처리하며 복잡한 데이터 세트를 분석하기 위한 강력한 클러스터링 알고리즘인 DBSCAN에 대해 알아보세요.
DBSCAN(노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링)은 머신 러닝(ML) 및 데이터 마이닝에 널리 사용되는 클러스터링 알고리즘입니다. 비지도 학습 방법의 일종으로, 밀집도가 높은 데이터 포인트를 함께 그룹화하여 저밀도 영역에 홀로 있는 포인트를 이상값 또는 노이즈로 표시합니다. DBSCAN은 K-평균과 같은 파티셔닝 방법과 달리 임의의 형태의 클러스터를 발견할 수 있고 클러스터의 수를 미리 지정할 필요가 없어 인공지능(AI) 내 다양한 데이터 탐색 작업에 활용될 수 있습니다.
DBSCAN은 밀도 도달 가능성이라는 개념을 기반으로 작동합니다. 클러스터는 밀도가 낮은 영역으로 구분된 데이터 포인트의 밀도가 높은 영역으로 정의됩니다. 이 알고리즘은 '엡실론'(eps)과 '최소 포인트'(minPts)라는 두 가지 주요 매개변수에 의존합니다. 엡실론은 두 점을 이웃으로 간주할 수 있는 두 점 사이의 최대 거리를 정의하며, 기본적으로 각 점 주변의 반경을 설정합니다. 최소 포인트는 한 포인트가 '핵심 포인트'로 분류되기 위해 포인트의 엡실론 이웃(포인트 자체 포함) 내에서 필요한 최소 포인트 수를 지정합니다.
포인트는 다음과 같이 분류됩니다:
알고리즘은 임의의 지점에서 시작하여 그 엡실론 이웃을 검색합니다. 핵심 지점인 경우 새 클러스터가 시작됩니다. 그런 다음 알고리즘은 직접 도달 가능한 모든 포인트(이웃)를 추가하고 반복적으로 이웃을 탐색하여 이 클러스터를 확장합니다. 이 프로세스는 클러스터에 더 이상 포인트를 추가할 수 없을 때까지 계속됩니다.
DBSCAN은 다른 클러스터링 알고리즘에 비해 몇 가지 장점이 있습니다:
그러나 다음과 같은 선택에 민감할 수 있습니다. eps
및 minPts
로 인해 고차원 데이터에서 성능이 저하될 수 있으며, "차원의 저주".
밀집된 그룹을 찾아내고 이상값을 격리하는 DBSCAN의 기능은 다양한 분야에서 유용하게 활용됩니다:
그리고 Ultralytics 에코시스템은 주로 다음과 같은 지도 학습 모델에 중점을 둡니다. Ultralytics YOLO 와 같은 지도 학습 모델에 중점을 두고 있습니다. DBSCAN은 핵심 YOLO 훈련 루프 내에서 직접 구현되지는 않지만, 밀도 분석의 기본 원리는 이와 관련이 있습니다. 공간 분포와 밀도를 이해하는 것은 데이터 세트를 분석하거나 감지 모델의 결과를 해석할 때(예: 감지된 물체를 클러스터링하는 것) 매우 중요합니다. 또한, Ultralytics HUB는 데이터 집합을 관리하고 분석하기 위한 도구를 제공하며, DBSCAN과 같은 클러스터링 기술이 중요한 역할을 하는 데이터 탐색의 광범위한 컨텍스트에 맞춰져 있습니다.
더 자세한 기술적 세부 사항은 scikit-learn DBSCAN 설명서 또는 원본 연구 논문과 같은 리소스를 참조하세요:"노이즈가 있는 대규모 공간 데이터베이스에서 클러스터를 발견하기 위한 밀도 기반 알고리즘".