Thuật ngữ

K-Hàng xóm gần nhất (KNN)

Khám phá KNN, một thuật toán học máy đa năng để phân loại, hồi quy, nhận dạng hình ảnh, v.v. Tìm hiểu cách thuật toán này dự đoán bằng cách sử dụng dữ liệu gần.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

K-Nearest Neighbors (KNN) là một thuật toán học máy đơn giản nhưng mạnh mẽ được sử dụng cho các tác vụ phân loại và hồi quy. Chức năng chính của nó là dự đoán lớp hoặc giá trị của một điểm dữ liệu dựa trên 'k' điểm dữ liệu gần nhất trong không gian tính năng. KNN được biết đến với tính đơn giản và hiệu quả trong việc xử lý các vấn đề phân loại, đặc biệt là với các tập dữ liệu mà ranh giới quyết định không phải là tuyến tính.

Cách thức hoạt động của K-Nearest Neighbors

KNN hoạt động bằng cách lưu trữ tất cả các điểm dữ liệu có sẵn và khi cần dự đoán, xác định 'k' hàng xóm gần nhất với điểm truy vấn. Sau đó, thuật toán xác định lớp phổ biến nhất (để phân loại) hoặc giá trị trung bình (để hồi quy) giữa các hàng xóm này làm dự đoán.

  • Đo lường khoảng cách : Việc lựa chọn đo lường khoảng cách là rất quan trọng trong KNN. Đo lường phổ biến bao gồm khoảng cách Euclidean, Manhattan và Minkowski. Đo lường này xác định cách đo lường "mức độ gần" của các điểm dữ liệu.

  • Chọn 'k' : Việc chọn giá trị 'k' thích hợp rất quan trọng đối với hiệu suất của mô hình. Giá trị 'k' nhỏ khiến mô hình nhạy cảm hơn với nhiễu, trong khi giá trị 'k' lớn có thể đơn giản hóa quá mức ranh giới quyết định, có khả năng bỏ sót các mẫu tinh tế.

  • Độ phức tạp tính toán : KNN yêu cầu tính toán khoảng cách giữa điểm truy vấn và tất cả các điểm khác trong tập dữ liệu, khiến việc tính toán trở nên tốn kém khi kích thước tập dữ liệu tăng lên. Đặc điểm này có thể khiến KNN trở nên khó sử dụng với các tập dữ liệu lớn mà không có sự tối ưu hóa.

Ứng dụng của KNN

  1. Nhận dạng hình ảnh : KNN có thể phân loại hình ảnh dựa trên giá trị cường độ điểm ảnh. Trong thị giác máy tính, nó được sử dụng để phát hiện các mẫu trong tập dữ liệu hình ảnh bằng cách so sánh hình ảnh mới với hình ảnh đã phân loại trước đó.

  2. Hệ thống đề xuất : Tận dụng dữ liệu tương tác giữa người dùng và mặt hàng, KNN xác định những người dùng hoặc mặt hàng tương tự để đưa ra đề xuất. Kỹ thuật này thường được sử dụng trong các nền tảng thương mại điện tử để đề xuất sản phẩm dựa trên hành vi và sở thích trước đây của người dùng.

  3. Chẩn đoán chăm sóc sức khỏe : KNN hỗ trợ dự đoán tình trạng bệnh nhân bằng cách so sánh dữ liệu bệnh nhân mới với dữ liệu hiện có từ hồ sơ bệnh nhân trước đây, hỗ trợ chẩn đoán và lập kế hoạch điều trị.

Ví dụ thực tế

  • Phát hiện gian lận : Các tổ chức tài chính sử dụng KNN để phát hiện các giao dịch gian lận bằng cách xác định các mô hình gian lận điển hình dựa trên lịch sử giao dịch trong quá khứ.

  • Dự đoán giá cổ phiếu : Trong tài chính, KNN được áp dụng để dự báo giá cổ phiếu bằng cách phân tích các xu hướng trong quá khứ và xác định các mô hình lịch sử tương tự để dự đoán các biến động trong tương lai.

Ưu điểm và nhược điểm

  • Ưu điểm :

    • Triển khai đơn giản, không cần giai đoạn đào tạo mô hình.
    • Không cần điều chỉnh các tham số mô hình, ngoại trừ việc quyết định 'k' và số liệu khoảng cách.
    • Hoạt động tốt với các tập dữ liệu nhỏ hơn và các vấn đề phân loại đa lớp.
  • Nhược điểm :

    • Chi phí tính toán cao trong giai đoạn dự đoán.
    • Nhạy cảm với các tính năng không liên quan hoặc thừa vì tất cả các tính năng đều có vai trò như nhau.
    • Hiệu suất giảm nhanh khi tính đa chiều tăng lên, được gọi là "lời nguyền của tính đa chiều".

Các khái niệm liên quan và các giải pháp thay thế

  • Phân cụm K-Means : Trong khi KNN được sử dụng để phân loại, Phân cụm K-Means là thuật toán học không giám sát nhóm dữ liệu thành các cụm dựa trên mức độ tương đồng của các tính năng.

  • Máy vectơ hỗ trợ (SVM) : Không giống như KNN, SVM là mô hình học có giám sát tìm siêu phẳng trong không gian đặc điểm phân tách tốt nhất các lớp khác nhau. Tìm hiểu thêm về Máy vectơ hỗ trợ .

  • Cây quyết định : Các mô hình này tạo ra một biểu đồ dạng cây về các quyết định để hỗ trợ phân loại. Tìm hiểu thêm về Cây quyết định .

Đối với các ứng dụng thực tế và triển khai, hãy khám phá khả năng của Ultralytics HUB, một nền tảng cho phép đào tạo và triển khai dễ dàng các mô hình học máy như KNN và hơn thế nữa. Truy cập Ultralytics HUB để tận dụng các giải pháp không cần mã cho các dự án AI của bạn.

Để hiểu cách KNN phù hợp với các tác vụ học máy rộng hơn, hãy tìm hiểu thêm về Học có giám sát và các khái niệm học máy liên quan khác.

Đọc tất cả