Thuật ngữ

Làm mịn nhãn

Nâng cao độ chính xác và độ bền của mô hình AI bằng cách làm mịn nhãn—một kỹ thuật đã được chứng minh có thể cải thiện khả năng khái quát hóa và giảm sự tự tin thái quá.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Làm mịn nhãn là một kỹ thuật chính quy hóa được sử dụng trong quá trình đào tạo các mô hình phân loại trong học máy (ML)học sâu (DL) . Mục tiêu chính của nó là ngăn mô hình trở nên quá tự tin vào các dự đoán của mình. Thay vì đào tạo mô hình bằng các nhãn "cứng" (trong đó lớp đúng được gán xác suất là 1 và tất cả các lớp khác là 0), làm mịn nhãn sử dụng các nhãn "mềm". Điều này có nghĩa là lớp đúng được gán xác suất thấp hơn một chút (ví dụ: 0,9) và xác suất nhỏ còn lại được phân bổ đều giữa các lớp không đúng. Kỹ thuật này khuyến khích mô hình ít chắc chắn hơn về các dự đoán của mình, điều này có thể dẫn đến khái quát hóa tốt hơn và cải thiện hiệu suất trên dữ liệu chưa biết. Kỹ thuật này đã được thảo luận đáng chú ý trong bài báo Rethinking the Inception Architecture .

Làm thế nào để làm mịn nhãn hoạt động

Trong các tác vụ phân loại chuẩn, các mô hình thường được đào tạo bằng cách sử dụng hàm mất mát như entropy chéo, hàm này phạt mô hình dựa trên khoảng cách phân phối xác suất dự đoán của nó so với phân phối mục tiêu (nhãn cứng). Với nhãn cứng, mô hình được đẩy để làm cho xác suất đầu ra cho lớp chính xác cực kỳ gần với 1 và các lớp khác gần với 0. Điều này có thể dẫn đến quá khớp , trong đó mô hình học dữ liệu đào tạo quá tốt, bao gồm cả nhiễu của nó và hoạt động kém trên dữ liệu mới. Làm mịn nhãn sửa đổi các nhãn mục tiêu bằng cách gán một giá trị xác suất nhỏ (epsilon) cho các lớp không chính xác và giảm xác suất của lớp đúng theo tổng số lượng được phân phối. Điều này ngăn mô hình tạo ra các giá trị logit quá lớn cho lớp chính xác, thúc đẩy một mô hình kém tự tin hơn, có khả năng mạnh mẽ hơn.

Lợi ích của việc làm mịn nhãn

  • Cải thiện khả năng khái quát hóa: Bằng cách ngăn chặn sự tự tin thái quá, các mô hình thường khái quát hóa tốt hơn đối với dữ liệu chưa biết.
  • Hiệu chuẩn mô hình tốt hơn: Xác suất dự đoán có xu hướng phản ánh chính xác hơn khả năng đúng đắn thực sự. Bạn có thể tìm hiểu thêm về hiệu chuẩn mô hình trong thống kê .
  • Tăng cường độ tin cậy: Các mô hình có thể trở nên linh hoạt hơn với các nhãn nhiễu hoặc những thay đổi nhỏ trong dữ liệu đầu vào.
  • Giảm hiện tượng quá khớp: Hoạt động như một bộ điều chỉnh, giúp giảm hiện tượng quá khớp, về bản chất tương tự như các kỹ thuật như Dropout hoặc Data Augmentation , mặc dù nó hoạt động trực tiếp trên các nhãn mục tiêu.

Ứng dụng của Làm mịn nhãn

Làm mịn nhãn có thể áp dụng rộng rãi, đặc biệt là trong các tác vụ phân loại trên nhiều miền khác nhau:

  • Phân loại hình ảnh : Khi đào tạo mạng lưới nơ-ron sâu như Ultralytics YOLO các mô hình trên các tập dữ liệu lớn như ImageNet , việc làm mịn nhãn có thể góp phần nâng cao độ chính xác xác thực. Điều này đặc biệt hữu ích trong các lĩnh vực như phân tích hình ảnh y tế, nơi mà các ước tính xác suất được hiệu chuẩn là quan trọng.
  • Xử lý ngôn ngữ tự nhiên (NLP) : Trong các tác vụ như dịch máy hoặc đào tạo các mô hình ngôn ngữ lớn ( LLM ) như BERT hoặc GPT , làm mịn nhãn giúp cải thiện tính lưu loát và khái quát của các mô hình bằng cách ngăn chúng gán độ chắc chắn tuyệt đối cho các dự đoán từ cụ thể. Các khuôn khổ như PyTorchTensorFlow thường bao gồm các tùy chọn để làm mịn nhãn trong các hàm mất mát của chúng.

Những cân nhắc

Mặc dù nhìn chung có lợi, việc làm mịn nhãn có thể làm chậm một chút quá trình hội tụ của mô hình trong quá trình đào tạo. Mức độ lợi ích của nó cũng có thể phụ thuộc vào tập dữ liệu và kiến trúc mô hình. Bản thân hệ số làm mịn (epsilon) là một siêu tham số có thể cần điều chỉnh để có kết quả tối ưu. Nó thường được tích hợp vào các đường ống đào tạo của các nền tảng và khuôn khổ hiện đại như Ultralytics HUB .

Đọc tất cả