Thuật ngữ

Học bán giám sát

Khám phá cách Học bán giám sát kết hợp dữ liệu có nhãn và không có nhãn để cải thiện mô hình AI, giảm chi phí gắn nhãn và tăng độ chính xác.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học bán giám sát (SSL) là một loại kỹ thuật Học máy (ML) nằm giữa học có giám sáthọc không giám sát . Nó sử dụng sự kết hợp của một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệu không được gắn nhãn để đào tạo các mô hình. Động lực chính đằng sau SSL là chi phí cao và công sức thường liên quan đến việc gắn nhãn dữ liệu , đặc biệt là trong các miền phức tạp. Bằng cách tận dụng dữ liệu không được gắn nhãn có sẵn, SSL hướng đến mục tiêu cải thiện hiệu suất và khả năng khái quát hóa của mô hình vượt xa những gì có thể đạt được khi chỉ sử dụng dữ liệu được gắn nhãn hạn chế.

Học bán giám sát hoạt động như thế nào

Nguyên tắc cốt lõi của Học bán giám sát là dữ liệu không có nhãn, mặc dù không có nhãn rõ ràng, nhưng vẫn chứa thông tin có giá trị về cấu trúc và phân phối cơ bản của dữ liệu. Thuật toán SSL cố gắng khai thác cấu trúc này để tăng cường quá trình học. Các cách tiếp cận phổ biến thường liên quan đến việc đưa ra các giả định về dữ liệu, chẳng hạn như 'giả định cụm' (các điểm trong cùng một cụm có khả năng có cùng nhãn) hoặc 'giả định đa tạp' (các điểm dữ liệu nằm trên đa tạp có chiều thấp hơn).

Các kỹ thuật được sử dụng trong SSL bao gồm các phương pháp như gắn nhãn giả, trong đó một mô hình được đào tạo trên dữ liệu được gắn nhãn ban đầu được sử dụng để dự đoán nhãn cho dữ liệu chưa được gắn nhãn. Các dự đoán có độ tin cậy cao sau đó được coi là 'nhãn giả' và được thêm vào bộ dữ liệu đào tạo. Một cách tiếp cận khác liên quan đến chính quy hóa tính nhất quán, khuyến khích mô hình tạo ra các đầu ra tương tự cho các phiên bản nhiễu của cùng một đầu vào chưa được gắn nhãn, thường đạt được thông qua các kỹ thuật như tăng cường dữ liệu . Các phương pháp này giúp mô hình học các tính năng mạnh mẽ hơn bằng cách sử dụng tập dữ liệu chưa được gắn nhãn khổng lồ. Bạn có thể tìm thấy Tổng quan về SSL hay trên Towards Data Science .

Ứng dụng và Ví dụ

Học bán giám sát đặc biệt hữu ích trong các tình huống mà việc thu thập dữ liệu được gắn nhãn là một nút thắt cổ chai. Một số lĩnh vực ứng dụng chính bao gồm:

  • Phân loại hình ảnh : Đào tạo mô hình để phân loại hình ảnh (ví dụ: sử dụng các tập dữ liệu như CIFAR-10 ), trong đó chỉ một phần nhỏ hình ảnh được dán nhãn thủ công, nhưng có hàng triệu hình ảnh không được dán nhãn có sẵn trên web.
  • Phân tích hình ảnh y tế : Cải thiện các mô hình chẩn đoán bằng cách đào tạo một số bản quét y tế có chú thích của chuyên gia cùng với một nhóm lớn hơn các bản quét không có chú thích. Điều này có thể tăng cường các tác vụ như phát hiện khối u.
  • Phân loại trang web: Phân loại các trang web bằng cách sử dụng một tập hợp nhỏ các trang được phân loại thủ công và một số lượng lớn các trang chưa được phân loại được lấy từ internet. Xem Ví dụ nghiên cứu ban đầu về Phân loại nội dung web .
  • Nhận dạng giọng nói : Xây dựng hệ thống sử dụng một lượng hạn chế dữ liệu âm thanh đã phiên âm kết hợp với khối lượng lớn giọng nói chưa phiên âm.
  • Xử lý ngôn ngữ tự nhiên (NLP) : Nâng cao các tác vụ như phân tích tình cảm hoặc phân loại văn bản bằng cách tận dụng các tập dữ liệu văn bản lớn chưa gắn nhãn cùng với các tập dữ liệu có gắn nhãn nhỏ hơn.

Sự khác biệt từ các khái niệm liên quan

Điều quan trọng là phải phân biệt Học bán giám sát với các mô hình ML liên quan:

  • Học có giám sát : Hoàn toàn dựa vào dữ liệu được gắn nhãn đầy đủ để đào tạo. SSL sử dụng cả dữ liệu được gắn nhãn và không được gắn nhãn.
  • Học không giám sát : Chỉ sử dụng dữ liệu không có nhãn, thường là cho các tác vụ như phân cụm hoặc giảm chiều, mà không dự đoán nhãn được xác định trước. SSL sử dụng dữ liệu không có nhãn để cải thiện tác vụ có giám sát.
  • Học tự giám sát : Cũng sử dụng dữ liệu không có nhãn, nhưng nó tạo ra các tín hiệu giám sát từ chính dữ liệu (ví dụ, dự đoán một từ được che dấu, tô màu cho một hình ảnh). Nó thường được sử dụng cho các mô hình tiền đào tạo sau đó được tinh chỉnh trên dữ liệu được gắn nhãn, trong khi SSL thường kết hợp cả hai loại dữ liệu trong giai đoạn đào tạo chính.

Ưu điểm của học bán giám sát

  • Giảm chi phí ghi nhãn: Giảm đáng kể nhu cầu chú thích dữ liệu thủ công tốn kém và mất thời gian.
  • Độ chính xác được cải thiện: Có thể dẫn đến độ chính xác của mô hình cao hơn so với việc chỉ đào tạo trên các tập dữ liệu có nhãn nhỏ bằng cách tận dụng thông tin từ dữ liệu không có nhãn.
  • Khả năng khái quát hóa nâng cao: Các mô hình được đào tạo bằng SSL thường khái quát hóa tốt hơn đối với dữ liệu mới, chưa từng thấy bằng cách tìm hiểu các cấu trúc dữ liệu cơ bản.
  • Tận dụng dữ liệu dồi dào: Sử dụng hiệu quả lượng lớn dữ liệu chưa được gắn nhãn có sẵn trong nhiều ứng dụng thực tế.

Học bán giám sát cung cấp một phương pháp thực tế và mạnh mẽ để xây dựng các hệ thống Trí tuệ nhân tạo (AI) hiệu quả, đặc biệt là trong các tác vụ thị giác máy tính như phát hiện đối tượng , nơi có nhiều hình ảnh hoặc video không có nhãn. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc quản lý các tập dữ liệu có thể bao gồm hỗn hợp dữ liệu có nhãn và không có nhãn để đào tạo các mô hình như Ultralytics YOLO . Việc khám phá các kỹ thuật SSL có thể rất quan trọng đối với các dự án gặp phải những hạn chế về tính khả dụng của dữ liệu có nhãn, như được nêu bật trong các tài nguyên như bài đăng trên Blog AI Google về SSL .

Đọc tất cả