Khám phá DBSCAN: một thuật toán phân cụ mạnh mẽ để xác định các mẫu, xử lý nhiễu và phân tích các tập dữ liệu phức tạp trong học máy.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán phân cụm được sử dụng rộng rãi trong học máy (ML) và khai thác dữ liệu . Thuật toán này thuộc về loại phương pháp học không giám sát , nghĩa là nó phát hiện ra các mẫu trong dữ liệu mà không có nhãn được xác định trước. DBSCAN vượt trội trong việc nhóm các điểm dữ liệu được đóng gói chặt chẽ với nhau trong không gian đặc điểm, xác định hiệu quả các cụm có hình dạng tùy ý. Điểm mạnh chính là khả năng đánh dấu các điểm bị cô lập trong các vùng có mật độ thấp là điểm ngoại lệ hoặc nhiễu, khiến thuật toán này trở nên mạnh mẽ đối với các tập dữ liệu trong thế giới thực. Không giống như các thuật toán yêu cầu chỉ định số lượng cụm trước, DBSCAN xác định các cụm dựa trên mật độ dữ liệu, mang lại sự linh hoạt trong nhiều tác vụ khám phá dữ liệu khác nhau trong trí tuệ nhân tạo (AI) .
DBSCAN xác định các cụm dựa trên khái niệm về khả năng tiếp cận mật độ. Nó xem các cụm là các vùng có mật độ cao được phân tách bởi các vùng có mật độ thấp. Hành vi của thuật toán chủ yếu được kiểm soát bởi hai tham số:
Dựa trên các thông số này, các điểm dữ liệu được phân loại thành ba loại:
minPts
những người hàng xóm trong đó eps
bán kính. Những điểm này thường nằm ở bên trong một cụm.eps
bán kính của một điểm lõi) nhưng không có minPts
hàng xóm của chính nó. Các điểm biên giới nằm trên rìa của cụm.Thuật toán bắt đầu bằng cách chọn một điểm dữ liệu tùy ý, chưa được truy cập. Nó kiểm tra xem điểm đó có phải là điểm cốt lõi hay không bằng cách kiểm tra eps
-neighborhood. Nếu đó là điểm cốt lõi, một cụm mới được hình thành và thuật toán đệ quy thêm tất cả các điểm có thể đạt được mật độ (điểm cốt lõi và điểm biên trong khu vực lân cận) vào cụm này. Nếu điểm được chọn là điểm nhiễu, nó được đánh dấu tạm thời như vậy và thuật toán di chuyển đến điểm chưa được ghé thăm tiếp theo. Quá trình này tiếp tục cho đến khi tất cả các điểm đã được ghé thăm và được gán cho một cụm hoặc được đánh dấu là nhiễu. Để tìm hiểu sâu hơn về phương pháp luận ban đầu, hãy tham khảo bài báo nghiên cứu: "Một thuật toán dựa trên mật độ để khám phá các cụm trong cơ sở dữ liệu không gian lớn có nhiễu".
DBSCAN mang lại một số lợi ích:
Tuy nhiên, nó cũng có những hạn chế:
eps
và minPts
. Việc tìm kiếm các thông số tối ưu có thể là một thách thức. Các công cụ như scikit-learn cung cấp các triển khai có thể điều chỉnh được.eps
-minPts
sự kết hợp này có thể không hiệu quả với tất cả các cụm.DBSCAN thường được so sánh với các thuật toán phân cụm khác, đặc biệt là phân cụm K-means . Những khác biệt chính bao gồm:
k
) trước đó, trong khi DBSCAN tự động xác định điều này.Khả năng tìm nhóm dày đặc và phân lập các giá trị ngoại lai của DBSCAN khiến nó phù hợp với nhiều ứng dụng khác nhau:
Hệ sinh thái Ultralytics chủ yếu tập trung vào các mô hình học có giám sát , chẳng hạn như Ultralytics YOLO cho các tác vụ bao gồm phát hiện đối tượng , phân loại hình ảnh và phân đoạn hình ảnh . Mặc dù DBSCAN, là một phương pháp không giám sát, không được tích hợp trực tiếp vào các vòng đào tạo cốt lõi của các mô hình như YOLOv8 hoặc YOLO11 , nhưng các nguyên tắc của nó có liên quan trong bối cảnh rộng hơn của thị giác máy tính (CV) và phân tích dữ liệu . Việc hiểu mật độ và phân phối dữ liệu là rất quan trọng khi chuẩn bị và phân tích các tập dữ liệu để đào tạo hoặc khi xử lý hậu kỳ đầu ra của mô hình, ví dụ, phân cụm các đối tượng được phát hiện dựa trên vị trí gần không gian của chúng sau khi suy luận . Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý và trực quan hóa tập dữ liệu, có thể bổ sung cho các kỹ thuật phân tích dữ liệu khám phá, trong đó các thuật toán phân cụm như DBSCAN có thể được áp dụng.