Nâng cao độ chính xác và độ bền của mô hình AI bằng cách làm mịn nhãn—một kỹ thuật đã được chứng minh có thể cải thiện khả năng khái quát hóa và giảm sự tự tin thái quá.
Làm mịn nhãn là một kỹ thuật chính quy hóa được sử dụng trong quá trình đào tạo các mô hình phân loại trong học máy (ML) và học sâu (DL) . Mục tiêu chính của nó là ngăn mô hình trở nên quá tự tin vào các dự đoán của mình. Thay vì đào tạo mô hình bằng các nhãn "cứng" (trong đó lớp đúng được gán xác suất là 1 và tất cả các lớp khác là 0), làm mịn nhãn sử dụng các nhãn "mềm". Điều này có nghĩa là lớp đúng được gán xác suất thấp hơn một chút (ví dụ: 0,9) và xác suất nhỏ còn lại được phân bổ đều giữa các lớp không đúng. Kỹ thuật này khuyến khích mô hình ít chắc chắn hơn về các dự đoán của mình, điều này có thể dẫn đến khái quát hóa tốt hơn và cải thiện hiệu suất trên dữ liệu chưa biết. Kỹ thuật này đã được thảo luận đáng chú ý trong bài báo Rethinking the Inception Architecture .
Trong các tác vụ phân loại chuẩn, các mô hình thường được đào tạo bằng cách sử dụng hàm mất mát như entropy chéo, hàm này phạt mô hình dựa trên khoảng cách phân phối xác suất dự đoán của nó so với phân phối mục tiêu (nhãn cứng). Với nhãn cứng, mô hình được đẩy để làm cho xác suất đầu ra cho lớp chính xác cực kỳ gần với 1 và các lớp khác gần với 0. Điều này có thể dẫn đến quá khớp , trong đó mô hình học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu của nó và hoạt động kém trên dữ liệu mới. Làm mịn nhãn sửa đổi các nhãn mục tiêu bằng cách gán một giá trị xác suất nhỏ (epsilon) cho các lớp không chính xác và giảm xác suất của lớp đúng theo tổng số lượng được phân phối. Điều này ngăn mô hình tạo ra các giá trị logit quá lớn cho lớp chính xác, thúc đẩy một mô hình kém tự tin hơn, có khả năng mạnh mẽ hơn.
Làm mịn nhãn có thể áp dụng rộng rãi, đặc biệt là trong các tác vụ phân loại trên nhiều miền khác nhau:
Mặc dù nhìn chung có lợi, việc làm mịn nhãn có thể làm chậm một chút quá trình hội tụ của mô hình trong quá trình đào tạo. Mức độ lợi ích của nó cũng có thể phụ thuộc vào tập dữ liệu và kiến trúc mô hình. Bản thân hệ số làm mịn (epsilon) là một siêu tham số có thể cần điều chỉnh để có kết quả tối ưu. Nó thường được tích hợp vào các đường ống đào tạo của các nền tảng và khuôn khổ hiện đại như Ultralytics HUB .