Nâng cao độ chính xác và độ bền của mô hình AI bằng cách làm mịn nhãn—một kỹ thuật đã được chứng minh có thể cải thiện khả năng khái quát hóa và giảm sự tự tin thái quá.
Làm mịn nhãn là một kỹ thuật chính quy hóa được sử dụng trong học máy, đặc biệt là trong các tác vụ phân loại, để cải thiện khả năng khái quát hóa và hiệu chuẩn mô hình. Nó hoạt động bằng cách sửa đổi các nhãn mục tiêu được sử dụng trong quá trình đào tạo, làm mềm các nhãn được mã hóa one-hot cứng để giảm sự tự tin thái quá trong các dự đoán và khuyến khích mô hình ít chắc chắn hơn về các phân loại của nó.
Trong các tác vụ phân loại truyền thống, nhãn mục tiêu thường được biểu diễn bằng mã hóa one-hot. Ví dụ, nếu một hình ảnh thuộc lớp 'cat', nhãn sẽ là [0, 1, 0, 0]
cho bốn lớp (chó, mèo, chim, cá), biểu thị sự tự tin hoàn toàn (1.0) trong lớp 'mèo' và sự tự tin bằng không (0.0) trong tất cả các lớp khác. Làm mịn nhãn thay đổi điều này bằng cách phân phối một lượng nhỏ khối lượng xác suất từ lớp đúng sang các lớp không đúng. Thay vì mục tiêu là [0, 1, 0, 0]
, việc làm mịn nhãn có thể thay đổi nó thành thứ gì đó như [0.01, 0.9, 0.03, 0.06]
. Mục tiêu được điều chỉnh này chỉ ra rằng mặc dù hình ảnh thực sự là một 'con mèo', nhưng vẫn có khả năng nhỏ là nó là thứ gì đó khác.
Sự điều chỉnh nhỏ này có vẻ có tác động đáng kể đến cách các mô hình học. Bằng cách ngăn mô hình trở nên quá tự tin về một lớp duy nhất trong quá trình đào tạo, làm mịn nhãn khuyến khích mô hình học các tính năng mạnh mẽ và tổng quát hơn. Về cơ bản, nó cho mô hình biết rằng ngay cả dữ liệu đào tạo cũng có thể có một số bất ổn hoặc nhiễu và không nên phù hợp quá hoàn hảo với dữ liệu đào tạo, điều này có thể dẫn đến quá khớp .
Lợi ích chính của việc làm mịn nhãn là cải thiện khả năng khái quát hóa mô hình. Các mô hình được đào tạo bằng mã hóa one-hot tiêu chuẩn có thể trở nên quá tự tin vào dự đoán của mình, đặc biệt là trên dữ liệu đào tạo. Sự quá tự tin này có thể dẫn đến hiệu suất kém trên dữ liệu chưa biết vì mô hình chưa học cách xử lý sự không chắc chắn hoặc các biến thể nhỏ trong đầu vào.
Làm mịn nhãn hoạt động như một hình thức chính quy hóa bằng cách phạt các dự đoán quá tự tin. Nó khuyến khích mô hình ít phân biệt hơn và được hiệu chuẩn hơn, nghĩa là xác suất dự đoán của nó phản ánh nhiều hơn khả năng thực tế của một lớp là đúng. Điều này thường dẫn đến độ chính xác và độ tin cậy tốt hơn, đặc biệt là trong các ứng dụng thực tế, nơi dữ liệu thường bị nhiễu và kém hoàn hảo hơn so với các tập dữ liệu đào tạo.
Hơn nữa, làm mịn nhãn có thể giúp ngăn các mô hình ghi nhớ dữ liệu đào tạo và thay vào đó học các biểu diễn có ý nghĩa hơn. Nó làm cho quá trình đào tạo ổn định hơn và ít nhạy cảm hơn với các nhãn nhiễu trong tập dữ liệu.
Làm mịn nhãn đã được áp dụng thành công trên nhiều lĩnh vực khác nhau trong AI và học máy. Sau đây là một vài ví dụ:
Phân loại hình ảnh: Trong phân loại hình ảnh với Ultralytics YOLO mô hình, làm mịn nhãn có thể được sử dụng để cải thiện tính mạnh mẽ của bộ phân loại. Ví dụ, khi đào tạo một mô hình trên ImageNet , việc áp dụng làm mịn nhãn có thể dẫn đến sự gia tăng nhỏ nhưng đáng kể về độ chính xác xác thực. Điều này đặc biệt hữu ích trong các tình huống như phân tích hình ảnh y tế , trong đó ước tính xác suất chính xác và được hiệu chuẩn tốt là rất quan trọng đối với chẩn đoán.
Xử lý ngôn ngữ tự nhiên (NLP): Làm mịn nhãn cũng có lợi trong các tác vụ NLP , chẳng hạn như dịch máy và mô hình hóa ngôn ngữ. Ví dụ, trong quá trình đào tạo các mô hình ngôn ngữ lớn như GPT-3 hoặc GPT-4 , làm mịn nhãn có thể tăng cường khả năng khái quát hóa của mô hình đối với các câu và ngữ cảnh mới. Nó cũng có thể cải thiện tính lưu loát và tính mạch lạc của văn bản được tạo ra bằng cách ngăn mô hình trở nên quá xác định trong các dự đoán từ của mình. Các kỹ thuật như kỹ thuật nhắc nhở có thể tận dụng hiệu chuẩn được cải thiện từ làm mịn nhãn để tạo ra các đầu ra văn bản đáng tin cậy hơn và có nhận thức về ngữ cảnh.
Bằng cách kết hợp làm mịn nhãn vào quy trình đào tạo, các nhà phát triển có thể xây dựng các mô hình AI đáng tin cậy và mạnh mẽ hơn, hoạt động tốt hơn trong các tình huống thực tế, đặc biệt là khi sử dụng các mô hình mạnh mẽ như Ultralytics YOLOv8 cho các tác vụ thị giác.