Khám phá cách Học bán giám sát kết hợp dữ liệu có nhãn và không có nhãn để cải thiện mô hình AI, giảm chi phí gắn nhãn và tăng độ chính xác.
Học bán giám sát (SSL) là một giải pháp trung gian mạnh mẽ trong Học máy (ML) , kết hợp một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn trong quá trình đào tạo. Cách tiếp cận này đặc biệt có giá trị trong các tình huống mà việc thu thập dữ liệu được gắn nhãn tốn kém, mất thời gian hoặc không thực tế, nhưng dữ liệu không được gắn nhãn lại rất nhiều. SSL hướng đến việc tận dụng cấu trúc cơ bản trong dữ liệu không được gắn nhãn để cải thiện hiệu suất mô hình vượt xa những gì có thể đạt được khi chỉ sử dụng dữ liệu được gắn nhãn hạn chế, khiến nó trở thành một kỹ thuật thực tế cho nhiều vấn đề Trí tuệ nhân tạo (AI) trong thế giới thực.
Thuật toán SSL hoạt động bằng cách đưa ra một số giả định về mối quan hệ giữa dữ liệu được gắn nhãn và không được gắn nhãn. Các giả định phổ biến bao gồm 'giả định về độ mịn' (các điểm gần nhau có khả năng chia sẻ một nhãn) hoặc 'giả định cụm' (dữ liệu có xu hướng tạo thành các cụm riêng biệt và các điểm trong cùng một cụm có khả năng chia sẻ một nhãn). Các kỹ thuật thường bao gồm việc đào tạo một mô hình ban đầu trên dữ liệu được gắn nhãn và sau đó sử dụng nó để tạo nhãn giả cho dữ liệu không được gắn nhãn dựa trên các dự đoán có độ tin cậy cao. Sau đó, mô hình được đào tạo lại trên cả dữ liệu được gắn nhãn ban đầu và dữ liệu được gắn nhãn giả mới. Một cách tiếp cận khác là chính quy hóa tính nhất quán, trong đó mô hình được khuyến khích tạo ra cùng một đầu ra cho một ví dụ không được gắn nhãn ngay cả khi đầu vào của nó bị nhiễu nhẹ, thường đạt được thông qua việc tăng cường dữ liệu . Các phương pháp này cho phép mô hình học hỏi từ các mẫu và phân phối vốn có trong nhóm lớn các mẫu không được gắn nhãn. Các kỹ thuật nâng cao hơn được khám phá trong các tài nguyên như các bài đăng trên Blog AI Google về SSL .
Học bán giám sát chiếm một vị trí độc đáo giữa các loại hình học tập chính khác:
SSL có hiệu quả cao trong các lĩnh vực mà việc gắn nhãn là một trở ngại:
Ưu điểm chính của SSL là khả năng giảm sự phụ thuộc vào các tập dữ liệu có nhãn lớn, tiết kiệm thời gian và tài nguyên liên quan đến việc gắn nhãn dữ liệu . Nó thường dẫn đến việc khái quát hóa mô hình tốt hơn so với các mô hình chỉ được giám sát được đào tạo trên dữ liệu hạn chế bằng cách khai thác thông tin từ các mẫu không có nhãn. Tuy nhiên, sự thành công của SSL phụ thuộc rất nhiều vào các giả định cơ bản về tính chính xác của dữ liệu. Nếu các giả định này không đúng (ví dụ: phân phối dữ liệu không có nhãn rất khác so với dữ liệu có nhãn), các phương pháp SSL thậm chí có thể làm giảm hiệu suất. Việc lựa chọn và triển khai cẩn thận các kỹ thuật SSL là rất quan trọng, thường đòi hỏi chuyên môn về các hoạt động MLOps .
Nhiều khuôn khổ Học sâu (DL) hiện đại, bao gồm PyTorch ( trang web chính thức của PyTorch ) và TensorFlow ( trang web chính thức TensorFlow ), cung cấp các chức năng hoặc có thể được điều chỉnh để triển khai các thuật toán SSL. Các thư viện như Scikit-learn cung cấp một số phương pháp SSL . Các nền tảng như Ultralytics HUB hợp lý hóa quy trình bằng cách tạo điều kiện thuận lợi cho việc quản lý các tập dữ liệu ( tài liệu Bộ dữ liệu Ultralytics HUB ) có thể chứa hỗn hợp dữ liệu được gắn nhãn và không được gắn nhãn, đơn giản hóa việc đào tạo ( Đào tạo đám mây Ultralytics HUB ) và triển khai ( hướng dẫn tùy chọn triển khai mô hình ) của các mô hình được thiết kế để tận dụng các cấu trúc dữ liệu như vậy. Nghiên cứu về SSL tiếp tục phát triển, với những đóng góp thường được trình bày tại các hội nghị AI lớn như NeurIPS và ICML .