Chưng cất kiến thức

Khám phá cách Knowledge Distillation nén các mô hình AI để suy luận nhanh hơn, cải thiện độ chính xác và hiệu quả triển khai thiết bị biên.

Chắt lọc Kiến thức là một kỹ thuật tối ưu hóa và nén mô hình trong học máy (ML), trong đó một mô hình "học viên" nhỏ gọn được huấn luyện để tái tạo hiệu suất của một mô hình "giáo viên" lớn hơn, phức tạp hơn. Ý tưởng cốt lõi là chuyển "kiến thức" từ mô hình giáo viên mạnh mẽ nhưng cồng kềnh sang mô hình học viên nhỏ gọn hơn, hiệu quả hơn. Điều này cho phép triển khai các mô hình có độ chính xác cao trong các môi trường hạn chế về tài nguyên, chẳng hạn như trên các thiết bị biên hoặc điện thoại di động, mà không làm giảm đáng kể hiệu suất. Quy trình này thu hẹp khoảng cách giữa các mô hình nghiên cứu quy mô lớn, hiện đại và việc triển khai mô hình thực tế, thiết thực.

Quá trình chưng cất kiến thức diễn ra như thế nào

Mô hình giáo viên, thường là một mạng nơ-ron lớn hoặc một tập hợp các mô hình, trước tiên được đào tạo trên một tập dữ liệu lớn để đạt được độ chính xác cao. Trong quá trình tinh lọc, mô hình học viên học bằng cách cố gắng bắt chước kết quả đầu ra của giáo viên. Thay vì chỉ học từ các nhãn thực tế trong dữ liệu đào tạo , học viên cũng được đào tạo trên phân phối xác suất đầy đủ của giáo viên cho mỗi dự đoán, thường được gọi là "nhãn mềm". Các nhãn mềm này cung cấp thông tin phong phú hơn so với "nhãn cứng" (câu trả lời đúng), vì chúng tiết lộ cách mô hình giáo viên "suy nghĩ" và khái quát hóa. Ví dụ: mô hình giáo viên có thể dự đoán hình ảnh một con mèo là "mèo" với độ tin cậy 90%, nhưng cũng gán các xác suất nhỏ cho "chó" (5%) và "cáo" (2%). Thông tin chi tiết này giúp mô hình học viên học hiệu quả hơn, thường dẫn đến khả năng khái quát hóa tốt hơn so với việc chỉ đào tạo trên các nhãn cứng. Kỹ thuật này là một phần quan trọng của bộ công cụ học sâu để tạo ra các mô hình hiệu quả.

Ứng dụng trong thế giới thực

Phương pháp chưng cất kiến thức được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau để giúp AI mạnh mẽ có thể tiếp cận được.

Xử lý Ngôn ngữ Tự nhiên (NLP): Các mô hình ngôn ngữ lớn (LLM) như BERT cực kỳ mạnh mẽ nhưng lại quá lớn đối với nhiều ứng dụng. DistilBERT là một ví dụ điển hình về phiên bản rút gọn của BERT. Nó nhỏ hơn 40% và nhanh hơn 60% trong khi vẫn giữ được hơn 97% hiệu suất của BERT, phù hợp cho các tác vụ như phân tích cảm xúc và trả lời câu hỏi trên thiết bị tiêu dùng.
Thị giác Máy tính trên Thiết bị Biên: Trong thị giác máy tính , một mô hình lớn, độ chính xác cao để phân loại hình ảnh hoặc phát hiện đối tượng có thể được tinh chỉnh thành một mô hình nhỏ hơn. Điều này cho phép các tác vụ thị giác phức tạp, chẳng hạn như phát hiện người theo thời gian thực cho camera an ninh thông minh, chạy trực tiếp trên phần cứng có sức mạnh tính toán hạn chế, chẳng hạn như Raspberry Pi , cải thiện tốc độ và quyền riêng tư dữ liệu . Các mô hình YOLO của Ultralytics như YOLO11 có thể là một phần của các quy trình làm việc như vậy, nơi kiến thức từ các mô hình lớn hơn có thể cung cấp thông tin cho việc đào tạo các phiên bản nhỏ hơn, có thể triển khai.