Học bán giám sát là một nhánh của học máy, thu hẹp khoảng cách giữa học có giám sát và học không giám sát. Nó tận dụng cả dữ liệu có nhãn và không có nhãn để đào tạo các mô hình. Trong nhiều tình huống thực tế, việc thu thập dữ liệu có nhãn có thể tốn kém và mất thời gian, đòi hỏi phải có sự chú thích thủ công của các chuyên gia. Mặt khác, dữ liệu không có nhãn thường có sẵn với số lượng lớn. Các kỹ thuật học bán giám sát tận dụng sự phong phú của dữ liệu không có nhãn này để cải thiện hiệu suất của các mô hình, đặc biệt là khi dữ liệu có nhãn khan hiếm.
Học bán giám sát hoạt động như thế nào
Không giống như học có giám sát , hoàn toàn dựa vào dữ liệu được gắn nhãn, và học không giám sát , chỉ sử dụng dữ liệu không được gắn nhãn, học bán giám sát kết hợp cả hai. Ý tưởng cốt lõi là dữ liệu không được gắn nhãn chứa thông tin có giá trị về cấu trúc cơ bản của phân phối dữ liệu. Bằng cách kết hợp thông tin này, các mô hình học bán giám sát thường có thể đạt được độ chính xác và khái quát hóa tốt hơn so với các mô hình chỉ được đào tạo trên dữ liệu được gắn nhãn hạn chế.
Một số kỹ thuật nằm trong phạm vi học bán giám sát, bao gồm:
- Nhãn giả: Phương pháp này bao gồm việc đào tạo một mô hình trên dữ liệu được gắn nhãn và sau đó sử dụng nó để dự đoán nhãn cho dữ liệu không được gắn nhãn. Những nhãn được dự đoán này, hay "nhãn giả", sau đó được xử lý như thể chúng là nhãn thật và được sử dụng để đào tạo lại mô hình, thường là theo cách lặp lại.
- Chính quy hóa tính nhất quán: Phương pháp này khuyến khích mô hình tạo ra các dự đoán tương tự cho các điểm dữ liệu không có nhãn ngay cả khi chúng bị nhiễu loạn hoặc tăng cường một chút. Các kỹ thuật như tăng cường dữ liệu thường được sử dụng để tạo ra các nhiễu loạn này.
- Phương pháp dựa trên đồ thị: Các phương pháp này biểu diễn các điểm dữ liệu dưới dạng các nút trong đồ thị, trong đó các cạnh kết nối các điểm tương tự. Sau đó, nhãn được truyền từ các nút có nhãn đến các nút không có nhãn dựa trên cấu trúc đồ thị.
- Tự đào tạo: Tương tự như gắn nhãn giả, tự đào tạo mở rộng tập dữ liệu được gắn nhãn theo từng bước bằng cách thêm các dự đoán có độ tin cậy cao vào dữ liệu chưa gắn nhãn.
Ứng dụng của học bán giám sát
Học bán giám sát có giá trị trong nhiều lĩnh vực, đặc biệt là khi dữ liệu được gắn nhãn bị hạn chế:
- Phân tích hình ảnh y tế: Trong phân tích hình ảnh y tế , việc thu thập hình ảnh y tế được gắn nhãn cho các nhiệm vụ như phát hiện khối u hoặc phân loại bệnh thường đòi hỏi các bác sĩ chuyên khoa X quang, khiến việc này tốn kém và mất thời gian. Học bán giám sát có thể giúp đào tạo các mô hình chính xác bằng cách sử dụng một tập hợp nhỏ hơn các hình ảnh được gắn nhãn cùng với một nhóm lớn hơn các bản quét không được gắn nhãn. Ví dụ, trong phát hiện khối u não bằng cách sử dụng Ultralytics YOLO để phát hiện vật thể , các kỹ thuật bán giám sát có thể nâng cao hiệu suất mô hình với dữ liệu MRI có nhãn hạn chế.
- Xử lý ngôn ngữ tự nhiên (NLP): Các tác vụ như phân tích tình cảm hoặc nhận dạng thực thể được đặt tên (NER) thường được hưởng lợi từ việc học bán giám sát. Có sẵn một lượng lớn dữ liệu văn bản, nhưng việc dán nhãn văn bản cho các tác vụ NLP cụ thể có thể rất tốn công. Các phương pháp bán giám sát có thể tận dụng văn bản không có nhãn để cải thiện khả năng hiểu của mô hình về sắc thái ngôn ngữ và ngữ cảnh.
- Nhận dạng giọng nói: Tương tự như NLP, hệ thống nhận dạng giọng nói có thể hưởng lợi từ lượng lớn dữ liệu âm thanh không có nhãn. Học bán giám sát giúp xây dựng các mô hình mạnh mẽ có thể khái quát hóa tốt ngay cả với dữ liệu giọng nói có nhãn hạn chế.
- Phân loại hình ảnh và phát hiện đối tượng: Trong các tác vụ thị giác máy tính như phân loại hình ảnh và phát hiện đối tượng , học bán giám sát có thể được sử dụng để cải thiện hiệu suất của các mô hình như Ultralytics YOLOv8 khi được đào tạo trên các tập dữ liệu mà chỉ một phần nhỏ hình ảnh được chú thích bằng hộp giới hạn hoặc nhãn. Ultralytics HUB có thể được sử dụng để quản lý các tập dữ liệu và đào tạo các mô hình, và học bán giám sát có thể được tích hợp để tối ưu hóa đào tạo với dữ liệu có nhãn hạn chế.
Ưu điểm của học bán giám sát
- Độ chính xác được cải thiện: Bằng cách sử dụng dữ liệu không có nhãn, học bán giám sát thường có thể tạo ra các mô hình có độ chính xác cao hơn so với học có giám sát với dữ liệu có nhãn hạn chế.
- Giảm chi phí dán nhãn: Giảm đáng kể nhu cầu dán nhãn dữ liệu thủ công, tiết kiệm thời gian và tài nguyên.
- Tổng quát hóa tốt hơn: Việc đào tạo với cả dữ liệu có nhãn và không có nhãn có thể giúp các mô hình học được các biểu diễn mạnh mẽ và tổng quát hơn, dẫn đến hiệu suất tốt hơn trên dữ liệu chưa biết.
Học bán giám sát cung cấp một cách tiếp cận mạnh mẽ đối với học máy, đặc biệt là trong các tình huống mà dữ liệu được gắn nhãn là một nút thắt cổ chai. Bằng cách tận dụng hiệu quả khối lượng dữ liệu chưa được gắn nhãn có sẵn, nó cho phép phát triển các hệ thống AI chính xác và hiệu quả hơn trên nhiều ứng dụng.