Khám phá cách Knowledge Distillation nén các mô hình AI để suy luận nhanh hơn, cải thiện độ chính xác và hiệu quả triển khai thiết bị biên.
Chưng cất kiến thức là một kỹ thuật nén mô hình được sử dụng trong học máy để chuyển kiến thức từ một mô hình lớn, phức tạp (giáo viên) sang một mô hình nhỏ hơn, đơn giản hơn (học sinh). Mục tiêu là đào tạo mô hình học sinh để đạt được hiệu suất tương đương với mô hình giáo viên, mặc dù học sinh có ít tham số hơn và ít tốn kém hơn về mặt tính toán. Điều này đặc biệt hữu ích khi triển khai các mô hình trên các thiết bị hạn chế về tài nguyên hoặc trong các ứng dụng yêu cầu thời gian suy luận nhanh.
Ý tưởng cốt lõi đằng sau Knowledge Distillation là sử dụng các đầu ra mềm (xác suất) của mô hình giáo viên làm mục tiêu đào tạo cho mô hình học sinh, ngoài hoặc thay cho các nhãn cứng (sự thật cơ bản). Các mô hình giáo viên, thường được đào tạo trước trên các tập dữ liệu lớn, có thể nắm bắt các mối quan hệ phức tạp trong dữ liệu và khái quát hóa tốt. Bằng cách học từ các mục tiêu mềm này, mô hình học sinh có thể học được thông tin phong phú hơn so với việc chỉ học từ các nhãn cứng. Quá trình này thường liên quan đến việc sử dụng "nhiệt độ" cao hơn trong hàm softmax trong quá trình suy luận của giáo viên để làm mềm phân phối xác suất, cung cấp thông tin sắc thái hơn cho học sinh.
Chưng cất kiến thức mang lại một số lợi thế, khiến nó trở thành một kỹ thuật có giá trị trong nhiều ứng dụng AI:
Các ứng dụng thực tế của Chắt lọc kiến thức rất rộng rãi:
Mặc dù Knowledge Distillation là một kỹ thuật nén mô hình, nhưng nó khác với các phương pháp khác như model pruning và model quantization . Model pruning làm giảm kích thước của mô hình bằng cách loại bỏ các kết nối ít quan trọng hơn (trọng số), trong khi model quantization làm giảm độ chính xác của trọng số của mô hình để sử dụng ít bộ nhớ và tính toán hơn. Mặt khác, Knowledge Distillation đào tạo một mô hình mới, nhỏ hơn từ đầu bằng cách sử dụng kiến thức của một mô hình lớn hơn. Các kỹ thuật này cũng có thể được kết hợp; ví dụ, một mô hình chưng cất có thể được cắt tỉa hoặc lượng tử hóa thêm để đạt được khả năng nén và hiệu quả thậm chí còn lớn hơn. Các công cụ như Model Compression Toolkit (MCT) của Sony và OpenVINO có thể được sử dụng để tối ưu hóa các mô hình hơn nữa sau khi chưng cất để triển khai biên.