Thuật ngữ

DBSCAN (Phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu)

Khám phá DBSCAN: một thuật toán phân cụ mạnh mẽ để xác định các mẫu, xử lý nhiễu và phân tích các tập dữ liệu phức tạp trong học máy.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) là một thuật toán phân cụm phổ biến được sử dụng trong học máy (ML)khai thác dữ liệu . Là một loại phương pháp học không giám sát , nó nhóm các điểm dữ liệu được đóng gói chặt chẽ lại với nhau, đánh dấu các điểm nằm riêng lẻ trong các vùng mật độ thấp là điểm ngoại lệ hoặc nhiễu. Không giống như các phương pháp phân vùng như K-means, DBSCAN có thể khám phá các cụm có hình dạng tùy ý và không yêu cầu phải chỉ định trước số lượng cụm, khiến nó trở nên linh hoạt cho nhiều tác vụ khám phá dữ liệu khác nhau trong trí tuệ nhân tạo (AI) .

DBSCAN hoạt động như thế nào

DBSCAN hoạt động dựa trên khái niệm về khả năng tiếp cận mật độ. Nó định nghĩa các cụm là các vùng dày đặc của các điểm dữ liệu được phân tách bởi các vùng có mật độ thấp hơn. Thuật toán dựa trên hai tham số chính: 'epsilon' (eps) và 'điểm tối thiểu' (minPts). Epsilon định nghĩa khoảng cách tối đa giữa hai điểm để chúng được coi là lân cận, về cơ bản là thiết lập bán kính xung quanh mỗi điểm. MinPts chỉ định số lượng điểm tối thiểu cần thiết trong vùng lân cận epsilon của một điểm (bao gồm cả điểm đó) để nó được phân loại là 'điểm lõi'.

Điểm được phân loại như sau:

  • Điểm cốt lõi: Các điểm có ít nhất minPts lân cận trong bán kính epsilon. Chúng tạo thành phần bên trong của một cụm.
  • Điểm biên giới: Các điểm có thể tiếp cận được từ một điểm lõi nhưng không có minPts lân cận. Chúng nằm trên rìa của một cụm.
  • Điểm nhiễu (Điểm ngoại lệ): Các điểm không phải là điểm lõi hoặc điểm biên. Chúng nằm ở các vùng có mật độ thấp.

Thuật toán bắt đầu với một điểm tùy ý và lấy epsilon-neighborhood của nó. Nếu đó là một điểm cốt lõi, một cụm mới sẽ được khởi tạo. Sau đó, thuật toán mở rộng cụm này bằng cách thêm tất cả các điểm có thể tiếp cận trực tiếp (các lân cận) và lặp lại việc khám phá các lân cận của chúng. Quá trình này tiếp tục cho đến khi không thể thêm điểm nào vào bất kỳ cụm nào nữa.

Ưu điểm chính

DBSCAN có một số ưu điểm so với các thuật toán phân cụ khác:

  • Xử lý nhiễu hiệu quả: Xác định và dán nhãn rõ ràng các điểm nhiễu mà nhiều thuật toán khác gặp khó khăn.
  • Hình dạng cụm tùy ý: Có thể tìm thấy các cụm không phải hình cầu, không giống như các thuật toán như cụm K-means giả định các cụm là lồi hoặc hình cầu.
  • Không cần chỉ định trước số lượng cụm: Số lượng cụm được thuật toán xác định dựa trên cấu trúc mật độ dữ liệu.

Tuy nhiên, nó có thể nhạy cảm với sự lựa chọn của epsminPtsvà hiệu suất của nó có thể giảm sút trên dữ liệu có nhiều chiều do "lời nguyền của chiều không gian".

Ứng dụng trong thế giới thực

Khả năng tìm các nhóm dày đặc và phân lập các giá trị ngoại lai của DBSCAN khiến nó trở nên có giá trị trong nhiều lĩnh vực:

  1. Phát hiện bất thường : Xác định các giao dịch bất thường trong tài chính, phát hiện xâm nhập mạng để tăng cường bảo mật dữ liệu hoặc tìm ra các mặt hàng bị lỗi trong kiểm soát chất lượng sản xuất, thường bổ sung cho thị giác máy tính trong các hệ thống sản xuất .
  2. Phân tích dữ liệu không gian địa lý: Nhóm các vị trí xảy ra sự cố (như tội phạm hoặc dịch bệnh) trên bản đồ để xác định điểm nóng, phân tích phân bổ khách hàng để lập kế hoạch bán lẻ hoặc hiểu các mô hình trong phân tích hình ảnh vệ tinh . Điều này hỗ trợ phát triển các giải pháp cho AI trong các thành phố thông minh .

DBSCAN và Ultralytics

Hệ sinh thái Ultralytics chủ yếu tập trung vào các mô hình học có giám sát như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân đoạn hình ảnh . Trong khi DBSCAN không được triển khai trực tiếp trong lõi YOLO vòng lặp đào tạo, các nguyên tắc cơ bản của phân tích mật độ có liên quan. Hiểu được phân bố không gian và mật độ là rất quan trọng khi phân tích các tập dữ liệu hoặc diễn giải kết quả của các mô hình phát hiện (ví dụ: nhóm các đối tượng được phát hiện). Hơn nữa, Ultralytics HUB cung cấp các công cụ để quản lý và phân tích các tập dữ liệu, phù hợp với bối cảnh rộng hơn của việc khám phá dữ liệu, trong đó các kỹ thuật nhóm như DBSCAN đóng vai trò.

Để biết thông tin kỹ thuật sâu hơn, hãy tham khảo các tài liệu như tài liệu DBSCAN của scikit-learn hoặc bài báo nghiên cứu gốc: " Thuật toán dựa trên mật độ để khám phá các cụm trong cơ sở dữ liệu không gian lớn có nhiễu ".

Đọc tất cả