Thuật ngữ

Học không giám sát

Khám phá cách học không giám sát sử dụng phân cụ, giảm chiều và phát hiện bất thường để khám phá các mẫu ẩn trong dữ liệu.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học không giám sát là một loại học máy trong đó các thuật toán học từ dữ liệu không có nhãn. Không giống như học có giám sát, dựa vào dữ liệu có nhãn để đào tạo các mô hình, các thuật toán học không giám sát khám phá dữ liệu và xác định các mẫu mà không có hướng dẫn rõ ràng. Cách tiếp cận này đặc biệt hữu ích khi xử lý các tập dữ liệu lớn, nơi việc dán nhãn là không thực tế hoặc khi mục tiêu là khám phá các cấu trúc và mối quan hệ ẩn trong dữ liệu.

Học không giám sát hoạt động như thế nào

Trong học không giám sát, thuật toán được trình bày với dữ liệu đầu vào mà không có bất kỳ nhãn đầu ra tương ứng nào. Sau đó, hệ thống cố gắng tìm hiểu cấu trúc vốn có của dữ liệu. Điều này đạt được thông qua nhiều kỹ thuật khác nhau nhằm mục đích:

  • Dữ liệu cụm: Nhóm các điểm dữ liệu tương tự lại với nhau. Phân cụm K-means là thuật toán phổ biến cho mục đích này, phân vùng dữ liệu thành các cụm riêng biệt dựa trên tính tương đồng của các đặc điểm.
  • Giảm chiều: Đơn giản hóa dữ liệu bằng cách giảm số lượng biến trong khi vẫn giữ nguyên thông tin cần thiết. Phân tích thành phần chính (PCA) là phương pháp phổ biến để giảm chiều, chuyển đổi dữ liệu có chiều cao thành biểu diễn có chiều thấp hơn.
  • Khám phá các liên kết: Xác định mối quan hệ và sự phụ thuộc giữa các biến trong dữ liệu. Ví dụ, khai thác quy tắc liên kết có thể khám phá các quy tắc mô tả các mẫu đồng hiện thường xuyên.
  • Phát hiện bất thường: Xác định các điểm dữ liệu bất thường lệch đáng kể so với chuẩn mực. DBSCAN (Phân cụm không gian dựa trên mật độ của các ứng dụng có nhiễu) có thể được sử dụng để xác định các điểm ngoại lệ bằng cách nhận dạng các vùng thưa thớt trong không gian dữ liệu.

Ứng dụng của học tập không giám sát

Các kỹ thuật học không giám sát được sử dụng trong nhiều lĩnh vực khác nhau để trích xuất những thông tin có giá trị từ dữ liệu:

  • Phân khúc khách hàng: Các doanh nghiệp sử dụng thuật toán phân cụm để phân khúc khách hàng thành các nhóm riêng biệt dựa trên hành vi mua sắm, nhân khẩu học hoặc hoạt động trên trang web. Điều này cho phép các chiến lược tiếp thị có mục tiêu và trải nghiệm khách hàng được cá nhân hóa. Ví dụ, một công ty bán lẻ có thể sử dụng học tập không giám sát trên dữ liệu giao dịch của khách hàng để xác định các phân khúc khách hàng khác nhau, cho phép họ điều chỉnh các khuyến nghị và chương trình khuyến mại sản phẩm.
  • Phát hiện bất thường trong phát hiện gian lận: Trong tài chính, phát hiện bất thường là rất quan trọng để xác định các giao dịch gian lận. Các thuật toán học không giám sát có thể học các mẫu giao dịch bình thường và đánh dấu các độ lệch có thể chỉ ra hoạt động gian lận. Điều này giúp chủ động ngăn ngừa tổn thất tài chính và tăng cường bảo mật dữ liệu .
  • Phân tích hình ảnh y tế: Học không giám sát đóng vai trò quan trọng trong phân tích hình ảnh y tế . Các kỹ thuật như giảm chiều và phân cụm có thể giúp phân tích hình ảnh y tế, chẳng hạn như X-quang hoặc MRI, để phát hiện các mẫu có thể chỉ ra bệnh tật hoặc bất thường, ngay cả khi không có nhãn rõ ràng.
  • Phân cụm tài liệu: Trong xử lý ngôn ngữ tự nhiên, học không giám sát được sử dụng để phân cụm tài liệu, nhóm các tài liệu tương tự lại với nhau dựa trên nội dung của chúng. Điều này hữu ích để tổ chức các bộ sưu tập dữ liệu văn bản lớn, chẳng hạn như bài báo hoặc bài nghiên cứu, và cho các tác vụ như mô hình hóa chủ đề và tìm kiếm ngữ nghĩa .

Học không giám sát so với học có giám sát

Sự khác biệt chính giữa học không giám sát và học có giám sát nằm ở loại dữ liệu được sử dụng để đào tạo. Học có giám sát sử dụng dữ liệu có nhãn, trong đó mỗi điểm dữ liệu đầu vào được ghép nối với một nhãn đầu ra tương ứng. Thuật toán học cách ánh xạ đầu vào thành đầu ra dựa trên các ví dụ có nhãn này. Ngược lại, học không giám sát sử dụng dữ liệu không có nhãn và nhằm mục đích khám phá các cấu trúc hoặc mẫu ẩn trong chính dữ liệu, mà không có nhãn đầu ra rõ ràng.

Cả học có giám sát và không giám sát đều là những công cụ thiết yếu trong học máy (ML)trí tuệ nhân tạo (AI) , và sự lựa chọn giữa chúng phụ thuộc vào vấn đề cụ thể, tính khả dụng của dữ liệu được gắn nhãn và kết quả mong muốn. Đối với các dự án liên quan đến mô hình Ultralytics YOLO , trong khi đào tạo thường dựa vào học có giám sát cho các tác vụ như phát hiện đối tượngphân đoạn hình ảnh , các phương pháp không giám sát có thể có giá trị trong xử lý trước dữ liệu, phân tích dữ liệu thăm dò hoặc trong các ứng dụng cụ thể như phát hiện bất thường trong kiểm soát chất lượng sản xuất.

Đọc tất cả