Thuật ngữ

Phân cụm K-Means

Tìm hiểu về K-Means Clustering, một thuật toán học không giám sát quan trọng để nhóm dữ liệu thành các cụm. Khám phá quy trình, ứng dụng và so sánh của nó!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Phân cụm K-Means là một thuật toán cơ bản trong học tập không giám sát , được sử dụng rộng rãi để phân vùng một tập dữ liệu thành một số lượng được xác định trước (K) các cụm riêng biệt, không chồng chéo. Nó đặc biệt hiệu quả để khám phá các cấu trúc nhóm cơ bản trong dữ liệu khi bạn không có nhãn được xác định trước. Mục tiêu chính của K-Means là nhóm các điểm dữ liệu tương tự lại với nhau bằng cách giảm thiểu phương sai trong mỗi cụm, cụ thể là tổng các khoảng cách bình phương giữa mỗi điểm dữ liệu và tâm (điểm trung bình) của cụm được chỉ định. Đây là một kỹ thuật nền tảng trong khai thác dữ liệu và phân tích dữ liệu khám phá.

Cách thức hoạt động của cụm K-Means

Thuật toán K-Means hoạt động thông qua một quá trình lặp đi lặp lại để tìm ra cách phân cụm tối ưu:

  1. Khởi tạo: Chọn ngẫu nhiên K điểm dữ liệu từ tập dữ liệu để làm trọng tâm ban đầu cho các cụm. Ngoài ra, trọng tâm có thể được khởi tạo bằng các phương pháp như k-means++.
  2. Bước gán: Gán từng điểm dữ liệu trong tập dữ liệu cho tâm gần nhất, dựa trên số liệu khoảng cách (thường là khoảng cách Euclid). Điều này tạo thành K cụm ban đầu.
  3. Bước cập nhật: Tính toán lại vị trí trọng tâm của mỗi cụm bằng cách lấy giá trị trung bình của tất cả các điểm dữ liệu được gán cho cụm đó.
  4. Lặp lại: Lặp lại các bước Gán và Cập nhật cho đến khi trọng tâm không còn di chuyển đáng kể nữa hoặc các điểm dữ liệu ngừng thay đổi các chỉ định cụm, cho thấy sự hội tụ.

Sự tinh chỉnh lặp đi lặp lại này đảm bảo rằng thuật toán cải thiện dần dần tính nhỏ gọn và tách biệt của các cụm. K-Means được đánh giá cao vì tính đơn giản và hiệu quả tính toán, giúp nó có thể mở rộng cho các tập dữ liệu lớn . Để tìm hiểu sâu hơn về các phương pháp và triển khai cụm, các tài nguyên như tài liệu cụm scikit-learn cung cấp thông tin chi tiết và ví dụ mở rộng.

Ứng dụng của K-Means Clustering

K-Means Clustering tìm thấy ứng dụng trong nhiều lĩnh vực trong trí tuệ nhân tạo (AI)học máy (ML) . Sau đây là hai ví dụ cụ thể:

  • Phân khúc khách hàng: Các doanh nghiệp bán lẻ thường sử dụng K-Means để nhóm khách hàng dựa trên lịch sử mua hàng, hành vi duyệt web hoặc thông tin nhân khẩu học. Điều này giúp xác định các phân khúc riêng biệt như 'người mua sắm thường xuyên', 'người mua có ngân sách' hoặc 'người dùng không hoạt động', cho phép các chiến dịch tiếp thị có mục tiêu và đề xuất sản phẩm được cá nhân hóa. Điều này phù hợp với xu hướng rộng hơn về cách AI đang cách mạng hóa bán lẻ .
  • Nén hình ảnh: Trong thị giác máy tính (CV) , K-Means có thể được sử dụng để lượng tử hóa màu, một dạng nén hình ảnh. Bằng cách nhóm các màu pixel thành nhóm K, thuật toán giảm số lượng màu cần thiết để biểu diễn một hình ảnh, do đó giảm kích thước tệp trong khi vẫn giữ được tính tương đồng về mặt hình ảnh. Kỹ thuật này được khám phá trong nhiều hướng dẫn xử lý hình ảnh khác nhau.

Phân cụm K-Means so với các khái niệm liên quan

Hiểu được sự khác biệt giữa K-Means và các thuật toán khác là rất quan trọng để lựa chọn đúng công cụ:

  • Phân cụm K-Means so với DBSCAN: Cả hai đều là thuật toán phân cụm được sử dụng trong học tập không giám sát . Tuy nhiên, K-Means phân vùng dữ liệu thành một số lượng được xác định trước (K) các cụm hình cầu dựa trên trọng tâm. Ngược lại, DBSCAN (Phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu) xác định các cụm dựa trên mật độ điểm dữ liệu, cho phép tìm các cụm có hình dạng tùy ý và tự động phát hiện các điểm ngoại lai (nhiễu). DBSCAN không yêu cầu chỉ định số lượng cụm trước, không giống như K-Means. Bạn có thể tìm hiểu thêm về các phương pháp phân cụm dựa trên mật độ .
  • Phân cụm K-Means so với Học có giám sát: K-Means là một kỹ thuật không giám sát; nó hoạt động với dữ liệu không có nhãn để khám phá các mẫu hoặc nhóm vốn có. Ngược lại, các thuật toán học có giám sát , chẳng hạn như các thuật toán được sử dụng trong Ultralytics YOLO để phát hiện đối tượng hoặc phân loại hình ảnh , hãy học từ dữ liệu đã có nhãn (ví dụ: hình ảnh được gắn nhãn với loại đối tượng và vị trí). Các phương pháp có giám sát nhằm mục đích dự đoán nhãn cho dữ liệu mới, chưa thấy dựa trên ánh xạ đã học, trong khi K-Means nhằm mục đích tạo nhãn (cụm) cho chính nó. Bạn có thể khám phá nhiều tập dữ liệu học có giám sát được sử dụng để đào tạo mô hình.

Nắm vững K-Means cung cấp nền tảng vững chắc để khám phá cấu trúc dữ liệu. Các công cụ như Ultralytics HUB có thể giúp quản lý các tập dữ liệu và đào tạo các mô hình, có khả năng tận dụng các hiểu biết thu được từ các kỹ thuật phân cụm để cải thiện hiệu suất mô hình hoặc hiểu rõ hơn về phân phối dữ liệu. Việc khám phá sâu hơn vào các số liệu đánh giá phân cụm cũng có thể giúp đánh giá chất lượng kết quả K-Means.

Đọc tất cả