Khám phá cách Học bán giám sát kết hợp dữ liệu có nhãn và không có nhãn để cải thiện mô hình AI, giảm chi phí gắn nhãn và tăng độ chính xác.
Học bán giám sát (SSL) là một loại kỹ thuật Học máy (ML) nằm giữa học có giám sát và học không giám sát . Nó sử dụng sự kết hợp của một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệu không được gắn nhãn để đào tạo các mô hình. Động lực chính đằng sau SSL là chi phí cao và công sức thường liên quan đến việc gắn nhãn dữ liệu , đặc biệt là trong các miền phức tạp. Bằng cách tận dụng dữ liệu không được gắn nhãn có sẵn, SSL hướng đến mục tiêu cải thiện hiệu suất và khả năng khái quát hóa của mô hình vượt xa những gì có thể đạt được khi chỉ sử dụng dữ liệu được gắn nhãn hạn chế.
Nguyên tắc cốt lõi của Học bán giám sát là dữ liệu không có nhãn, mặc dù không có nhãn rõ ràng, nhưng vẫn chứa thông tin có giá trị về cấu trúc và phân phối cơ bản của dữ liệu. Thuật toán SSL cố gắng khai thác cấu trúc này để tăng cường quá trình học. Các cách tiếp cận phổ biến thường liên quan đến việc đưa ra các giả định về dữ liệu, chẳng hạn như 'giả định cụm' (các điểm trong cùng một cụm có khả năng có cùng nhãn) hoặc 'giả định đa tạp' (các điểm dữ liệu nằm trên đa tạp có chiều thấp hơn).
Các kỹ thuật được sử dụng trong SSL bao gồm các phương pháp như gắn nhãn giả, trong đó một mô hình được đào tạo trên dữ liệu được gắn nhãn ban đầu được sử dụng để dự đoán nhãn cho dữ liệu chưa được gắn nhãn. Các dự đoán có độ tin cậy cao sau đó được coi là 'nhãn giả' và được thêm vào bộ dữ liệu đào tạo. Một cách tiếp cận khác liên quan đến chính quy hóa tính nhất quán, khuyến khích mô hình tạo ra các đầu ra tương tự cho các phiên bản nhiễu của cùng một đầu vào chưa được gắn nhãn, thường đạt được thông qua các kỹ thuật như tăng cường dữ liệu . Các phương pháp này giúp mô hình học các tính năng mạnh mẽ hơn bằng cách sử dụng tập dữ liệu chưa được gắn nhãn khổng lồ. Bạn có thể tìm thấy Tổng quan về SSL hay trên Towards Data Science .
Học bán giám sát đặc biệt hữu ích trong các tình huống mà việc thu thập dữ liệu được gắn nhãn là một nút thắt cổ chai. Một số lĩnh vực ứng dụng chính bao gồm:
Điều quan trọng là phải phân biệt Học bán giám sát với các mô hình ML liên quan:
Học bán giám sát cung cấp một phương pháp thực tế và mạnh mẽ để xây dựng các hệ thống Trí tuệ nhân tạo (AI) hiệu quả, đặc biệt là trong các tác vụ thị giác máy tính như phát hiện đối tượng , nơi có nhiều hình ảnh hoặc video không có nhãn. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc quản lý các tập dữ liệu có thể bao gồm hỗn hợp dữ liệu có nhãn và không có nhãn để đào tạo các mô hình như Ultralytics YOLO . Việc khám phá các kỹ thuật SSL có thể rất quan trọng đối với các dự án gặp phải những hạn chế về tính khả dụng của dữ liệu có nhãn, như được nêu bật trong các tài nguyên như bài đăng trên Blog AI Google về SSL .