Thuật ngữ

Học không giám sát

Khám phá cách học không giám sát sử dụng phân cụ, giảm chiều và phát hiện bất thường để khám phá các mẫu ẩn trong dữ liệu.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học không giám sát là một loại học máy (ML) trong đó các thuật toán được đào tạo trên dữ liệu không có nhãn hoặc danh mục được xác định trước. Không giống như học có giám sát, mục tiêu không phải là dự đoán đầu ra đã biết dựa trên các tính năng đầu vào. Thay vào đó, hệ thống cố gắng tự học cấu trúc, mẫu và mối quan hệ cơ bản trong dữ liệu. Giống như việc cung cấp cho máy tính một bộ sưu tập lớn các mục chưa được sắp xếp và yêu cầu nó tìm các nhóm tự nhiên hoặc các tính năng thú vị mà không cho nó biết phải tìm kiếm điều gì. Cách tiếp cận này rất quan trọng để khám phá các tập dữ liệu phức tạp và khám phá những hiểu biết có thể không rõ ràng trước đó, tạo thành một phần quan trọng của Trí tuệ nhân tạo (AI) hiện đại.

Học không giám sát hoạt động như thế nào

Trong học không giám sát, thuật toán kiểm tra các điểm dữ liệu đầu vào và cố gắng xác định điểm tương đồng, khác biệt hoặc tương quan giữa chúng. Không có câu trả lời "đúng" hoặc đầu ra mục tiêu nào được cung cấp trong giai đoạn đào tạo . Các thuật toán phải suy ra cấu trúc vốn có trong dữ liệu. Điều này thường liên quan đến việc sắp xếp các điểm dữ liệu thành các nhóm ( phân cụm ), giảm độ phức tạp của dữ liệu ( giảm chiều ) hoặc xác định các điểm dữ liệu bất thường ( phát hiện dị thường ). Sự thành công của các phương pháp không giám sát thường phụ thuộc vào mức độ thuật toán có thể nắm bắt các thuộc tính nội tại của tập dữ liệu mà không cần hướng dẫn bên ngoài.

Kỹ thuật và khái niệm chính

Một số kỹ thuật nằm trong phạm vi học không giám sát:

  • Phân cụm : Điều này liên quan đến việc nhóm các điểm dữ liệu tương tự lại với nhau dựa trên các đặc điểm nhất định. Mục tiêu là tạo các cụm trong đó các mục trong một cụm rất giống nhau và các mục trong các cụm khác nhau thì không giống nhau. Các thuật toán phổ biến bao gồm Phân cụm K-MeansDBSCAN . Điều này hữu ích cho các tác vụ như phân khúc khách hàng hoặc sắp xếp các bộ sưu tập tài liệu lớn.
  • Giảm chiều : Các kỹ thuật này nhằm mục đích giảm số lượng biến đầu vào (tính năng) trong một tập dữ liệu trong khi vẫn bảo toàn thông tin cần thiết. Điều này đơn giản hóa các mô hình, giảm chi phí tính toán và có thể giúp trực quan hóa dữ liệu . Các phương pháp phổ biến bao gồm Phân tích thành phần chính (PCA)Nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) .
  • Học luật kết hợp: Điều này khám phá ra các mối quan hệ thú vị hoặc luật kết hợp giữa các biến trong các tập dữ liệu lớn. Một ví dụ điển hình là phân tích giỏ hàng, xác định các mặt hàng thường được mua cùng nhau. Các thuật toán như Apriori thường được sử dụng ở đây. Tìm hiểu thêm về khai thác luật kết hợp .
  • Phát hiện bất thường : Kỹ thuật này tập trung vào việc xác định các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu. Nó được sử dụng rộng rãi để phát hiện gian lận, bảo mật mạng và xác định lỗi trong sản xuất.
  • Mô hình tạo sinh : Một số mô hình không giám sát, như Mạng đối nghịch tạo sinh (GAN) hoặc Bộ mã hóa tự động , có thể tìm hiểu phân phối dữ liệu cơ bản để tạo các mẫu dữ liệu mới giống với dữ liệu gốc.

Ứng dụng trong thế giới thực

Học không giám sát hỗ trợ nhiều ứng dụng trong nhiều lĩnh vực khác nhau:

  • Phân khúc khách hàng: Các doanh nghiệp sử dụng cụm để nhóm khách hàng có hành vi hoặc đặc điểm nhân khẩu học tương tự, cho phép thực hiện các chiến dịch tiếp thị có mục tiêu và trải nghiệm được cá nhân hóa. Đọc về AI trong phân khúc khách hàng .
  • Hệ thống đề xuất : Học không giám sát giúp xác định các mẫu trong hành vi của người dùng (ví dụ: sản phẩm đã xem hoặc đã mua) để đề xuất các mục hoặc nội dung có liên quan, thường thấy trên các nền tảng như Netflix hoặc Amazon.
  • Tin sinh học: Thuật toán phân cụm nhóm các gen có kiểu biểu hiện tương tự, hỗ trợ các nhà nghiên cứu hiểu được chức năng di truyền và bệnh tật. Khám phá phân cụm trong phân tích biểu hiện gen .
  • Tiền xử lý dữ liệu: Các kỹ thuật như PCA được sử dụng để trích xuất tính năng hoặc giảm nhiễu trước khi đưa dữ liệu vào các mô hình có giám sát, có khả năng cải thiện hiệu suất. Xem các công cụ học không giám sát của Scikit-learn .

So sánh với các mô hình học tập khác

Học không giám sát khác biệt đáng kể so với các phương pháp ML khác:

  • Học có giám sát : Dựa vào dữ liệu được gắn nhãn (cặp đầu vào-đầu ra) để đào tạo các mô hình cho các nhiệm vụ như phân loại hoặc hồi quy . Mục tiêu là ánh xạ đầu vào thành đầu ra đã biết. So sánh học có giám sát và không giám sát .
  • Học tăng cường : Bao gồm một tác nhân học cách đưa ra quyết định bằng cách thực hiện các hành động trong môi trường để tối đa hóa phần thưởng tích lũy. Nó học thông qua thử nghiệm và sai sót, được hướng dẫn bởi các tín hiệu phản hồi (phần thưởng hoặc hình phạt). Xem tổng quan về học tăng cường .
  • Học bán giám sát : Sử dụng kết hợp một lượng nhỏ dữ liệu có nhãn và một lượng lớn dữ liệu không có nhãn, thu hẹp khoảng cách giữa học có giám sát và học không giám sát.
  • Học tự giám sát : Một tập hợp con của học không giám sát trong đó các nhãn được tự động tạo từ chính dữ liệu đầu vào, thường được sử dụng để đào tạo trước các mô hình lớn như trong NLP hoặc Thị giác máy tính (CV) .

Học không giám sát là một công cụ mạnh mẽ để khám phá dữ liệu, phát hiện các cấu trúc ẩn và trích xuất các tính năng có giá trị, thường đóng vai trò là bước đầu tiên quan trọng trong các quy trình phân tích dữ liệu phức tạp hoặc bổ sung cho các kỹ thuật ML khác. Các nền tảng như Ultralytics HUB cung cấp môi trường nơi nhiều mô hình ML khác nhau, có khả năng kết hợp các kỹ thuật không giám sát để chuẩn bị hoặc phân tích dữ liệu , có thể được phát triển và quản lý. Các khuôn khổ như PyTorchTensorFlow cung cấp các thư viện mở rộng hỗ trợ triển khai thuật toán không giám sát.

Đọc tất cả