Thuật ngữ

Học không giám sát

Khám phá cách học không giám sát sử dụng phân cụ, giảm chiều và phát hiện bất thường để khám phá các mẫu ẩn trong dữ liệu.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học không giám sát là một loại học máy (ML) trong đó các thuật toán học các mẫu từ dữ liệu không có nhãn. Không giống như học có giám sát , dựa trên các nhãn được xác định trước hoặc 'câu trả lời đúng', các phương pháp không giám sát khám phá cấu trúc vốn có của dữ liệu để khám phá các mối quan hệ, nhóm hoặc bất thường ẩn mà không cần hướng dẫn trước. Cách tiếp cận này đặc biệt hữu ích trong Trí tuệ nhân tạo (AI) để khám phá dữ liệu ban đầu và hiểu các tập dữ liệu phức tạp mà việc dán nhãn là không thực tế hoặc không thể. Nó cho phép các mô hình khám phá các mẫu và thông tin chi tiết trực tiếp từ dữ liệu.

Học không giám sát hoạt động như thế nào

Mục tiêu chính của học không giám sát là mô hình hóa cấu trúc hoặc phân phối cơ bản trong dữ liệu để tìm hiểu thêm về nó. Các thuật toán được để tự khám phá ra điểm tương đồng, khác biệt và cấu trúc. Các kỹ thuật phổ biến bao gồm:

  • Phân cụm : Điều này liên quan đến việc tự động nhóm các điểm dữ liệu tương tự lại với nhau dựa trên các đặc điểm nhất định. Các thuật toán phổ biến bao gồm Phân cụm K-MeansDBSCAN .
  • Giảm chiều : Kỹ thuật này đơn giản hóa dữ liệu bằng cách giảm số lượng biến hoặc tính năng đầu vào trong khi vẫn giữ nguyên thông tin cần thiết. Phân tích thành phần chính (PCA) là phương pháp được sử dụng rộng rãi để giảm chiều.
  • Học quy tắc liên kết : Phương pháp này khám phá các mối quan hệ thú vị hoặc quy tắc liên kết giữa các biến trong các tập dữ liệu lớn. Nó thường được áp dụng trong phân tích giỏ hàng để tìm các mặt hàng thường được mua cùng nhau.

Ứng dụng của học tập không giám sát

Các kỹ thuật học không giám sát được sử dụng trong nhiều tình huống thực tế khác nhau, đặc biệt là khi xử lý khối lượng lớn dữ liệu không có nhãn:

  • Phân khúc khách hàng: Các doanh nghiệp sử dụng cụm để nhóm khách hàng có hành vi, sở thích hoặc đặc điểm nhân khẩu học tương tự. Điều này cho phép các chiến dịch tiếp thị có mục tiêu hiệu quả hơn và trải nghiệm khách hàng được cá nhân hóa. Tìm hiểu thêm về phân khúc khách hàng .
  • Phát hiện bất thường : Các thuật toán không giám sát rất giỏi trong việc xác định các điểm dữ liệu bất thường hoặc các giá trị ngoại lai lệch đáng kể so với chuẩn mực. Điều này rất quan trọng đối với các ứng dụng như phát hiện gian lận trong tài chính, phát hiện xâm nhập mạng hoặc xác định lỗi trong sản xuất .

Sự liên quan trong AI và ML

Học không giám sát đóng vai trò quan trọng trong việc hiểu được khối lượng lớn dữ liệu thô, chưa được gắn nhãn đặc trưng của Dữ liệu lớn . Nó thường đóng vai trò là bước thiết yếu trong quá trình xử lý trước dữ liệukỹ thuật tính năng , giúp khám phá các cấu trúc ẩn hoặc giảm độ phức tạp của dữ liệu trước khi áp dụng các kỹ thuật ML khác. Trong khi các mô hình như Ultralytics YOLO chủ yếu được đào tạo bằng các phương pháp có giám sát cho các nhiệm vụ như phát hiện đối tượng , việc hiểu các cấu trúc dữ liệu thông qua các phương pháp không có giám sát có thể hỗ trợ đáng kể trong việc chuẩn bị và phân tích tập dữ liệu, có khả năng cải thiện hiệu suất mô hình. Bạn có thể khám phá các hướng dẫn thu thập và chú thích dữ liệu để chuẩn bị tập dữ liệu và quản lý dữ liệu và mô hình của mình bằng các nền tảng như Ultralytics HUB .

Học không giám sát so với các loại học khác

Điều quan trọng là phải phân biệt học không giám sát với các mô hình Học sâu (DL) và ML có liên quan:

  • Học có giám sát : Yêu cầu một tập dữ liệu được gắn nhãn đầy đủ, nghĩa là mỗi điểm dữ liệu có một đầu ra hoặc danh mục đã biết. Mục tiêu là đào tạo một mô hình có thể dự đoán chính xác đầu ra cho các điểm dữ liệu mới, chưa thấy dựa trên các ví dụ được gắn nhãn.
  • Học tự giám sát : Thường được coi là một loại học không giám sát, nó tự động tạo nhãn từ chính dữ liệu đầu vào bằng cách tạo ra các tác vụ tiền đề (ví dụ: dự đoán một phần ẩn của hình ảnh). Nó được sử dụng rộng rãi để đào tạo trước các mô hình lớn, bao gồm cả các mô hình dựa trên kiến trúc Transformer .
  • Học bán giám sát : Sử dụng sự kết hợp của một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệu không được gắn nhãn. Phương pháp này nhằm mục đích tận dụng dữ liệu không được gắn nhãn để cải thiện độ chính xác của việc học vượt xa những gì có thể đạt được chỉ với dữ liệu được gắn nhãn hạn chế. Khám phá thêm về học bán giám sát .

Học không giám sát vẫn là lĩnh vực cơ bản của ML, thúc đẩy khám phá và hiểu biết trong các tập dữ liệu phức tạp, nơi nhãn khan hiếm hoặc không có sẵn.

Đọc tất cả