Khám phá DBSCAN: một thuật toán phân cụ mạnh mẽ để xác định các mẫu, xử lý nhiễu và phân tích các tập dữ liệu phức tạp trong học máy.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán phân cụm phổ biến được sử dụng trong học máy (ML) và khai thác dữ liệu . Là một loại phương pháp học không giám sát , nó nhóm các điểm dữ liệu được đóng gói chặt chẽ lại với nhau, đánh dấu các điểm nằm riêng lẻ trong các vùng mật độ thấp là điểm ngoại lệ hoặc nhiễu. Không giống như các phương pháp phân vùng như K-means, DBSCAN có thể khám phá các cụm có hình dạng tùy ý và không yêu cầu phải chỉ định trước số lượng cụm, khiến nó trở nên linh hoạt cho nhiều tác vụ khám phá dữ liệu khác nhau trong trí tuệ nhân tạo (AI) .
DBSCAN hoạt động dựa trên khái niệm về khả năng tiếp cận mật độ. Nó định nghĩa các cụm là các vùng dày đặc của các điểm dữ liệu được phân tách bởi các vùng có mật độ thấp hơn. Thuật toán dựa trên hai tham số chính: 'epsilon' (eps) và 'điểm tối thiểu' (minPts). Epsilon định nghĩa khoảng cách tối đa giữa hai điểm để chúng được coi là lân cận, về cơ bản là thiết lập bán kính xung quanh mỗi điểm. MinPts chỉ định số lượng điểm tối thiểu cần thiết trong vùng lân cận epsilon của một điểm (bao gồm cả điểm đó) để nó được phân loại là 'điểm lõi'.
Điểm được phân loại như sau:
Thuật toán bắt đầu với một điểm tùy ý và lấy epsilon-neighborhood của nó. Nếu đó là một điểm cốt lõi, một cụm mới sẽ được khởi tạo. Sau đó, thuật toán mở rộng cụm này bằng cách thêm tất cả các điểm có thể tiếp cận trực tiếp (các lân cận) và lặp lại việc khám phá các lân cận của chúng. Quá trình này tiếp tục cho đến khi không thể thêm điểm nào vào bất kỳ cụm nào nữa.
DBSCAN có một số ưu điểm so với các thuật toán phân cụ khác:
Tuy nhiên, nó có thể nhạy cảm với sự lựa chọn của eps
và minPts
và hiệu suất của nó có thể giảm sút trên dữ liệu có nhiều chiều do "lời nguyền của chiều không gian".
Khả năng tìm các nhóm dày đặc và phân lập các giá trị ngoại lai của DBSCAN khiến nó trở nên có giá trị trong nhiều lĩnh vực:
Hệ sinh thái Ultralytics chủ yếu tập trung vào các mô hình học có giám sát như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân đoạn hình ảnh . Trong khi DBSCAN không được triển khai trực tiếp trong lõi YOLO vòng lặp đào tạo, các nguyên tắc cơ bản của phân tích mật độ có liên quan. Hiểu được phân bố không gian và mật độ là rất quan trọng khi phân tích các tập dữ liệu hoặc diễn giải kết quả của các mô hình phát hiện (ví dụ: nhóm các đối tượng được phát hiện). Hơn nữa, Ultralytics HUB cung cấp các công cụ để quản lý và phân tích các tập dữ liệu, phù hợp với bối cảnh rộng hơn của việc khám phá dữ liệu, trong đó các kỹ thuật nhóm như DBSCAN đóng vai trò.
Để biết thông tin kỹ thuật sâu hơn, hãy tham khảo các tài liệu như tài liệu DBSCAN của scikit-learn hoặc bài báo nghiên cứu gốc: " Thuật toán dựa trên mật độ để khám phá các cụm trong cơ sở dữ liệu không gian lớn có nhiễu ".