Thuật ngữ

Chưng cất kiến thức

Khám phá cách Knowledge Distillation nén các mô hình AI để suy luận nhanh hơn, cải thiện độ chính xác và hiệu quả triển khai thiết bị biên.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Chưng cất kiến thức là một kỹ thuật nén mô hình được sử dụng trong học máy để chuyển kiến thức từ một mô hình lớn, phức tạp (giáo viên) sang một mô hình nhỏ hơn, đơn giản hơn (học sinh). Mục tiêu là đào tạo mô hình học sinh để đạt được hiệu suất tương đương với mô hình giáo viên, mặc dù học sinh có ít tham số hơn và ít tốn kém hơn về mặt tính toán. Điều này đặc biệt hữu ích khi triển khai các mô hình trên các thiết bị hạn chế về tài nguyên hoặc trong các ứng dụng yêu cầu thời gian suy luận nhanh.

Quá trình chưng cất kiến thức diễn ra như thế nào

Ý tưởng cốt lõi đằng sau Knowledge Distillation là sử dụng các đầu ra mềm (xác suất) của mô hình giáo viên làm mục tiêu đào tạo cho mô hình học sinh, ngoài hoặc thay cho các nhãn cứng (sự thật cơ bản). Các mô hình giáo viên, thường được đào tạo trước trên các tập dữ liệu lớn, có thể nắm bắt các mối quan hệ phức tạp trong dữ liệu và khái quát hóa tốt. Bằng cách học từ các mục tiêu mềm này, mô hình học sinh có thể học được thông tin phong phú hơn so với việc chỉ học từ các nhãn cứng. Quá trình này thường liên quan đến việc sử dụng "nhiệt độ" cao hơn trong hàm softmax trong quá trình suy luận của giáo viên để làm mềm phân phối xác suất, cung cấp thông tin sắc thái hơn cho học sinh.

Lợi ích và ứng dụng

Chưng cất kiến thức mang lại một số lợi thế, khiến nó trở thành một kỹ thuật có giá trị trong nhiều ứng dụng AI:

  • Nén mô hình: Cho phép tạo ra các mô hình nhỏ hơn, hiệu quả hơn phù hợp để triển khai trên các thiết bị biên có tài nguyên tính toán hạn chế, chẳng hạn như điện thoại di động hoặc hệ thống nhúng. Điều này rất quan trọng đối với các ứng dụng như phát hiện đối tượng theo thời gian thực trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson .
  • Tổng quát hóa được cải thiện: Các mô hình học sinh được đào tạo bằng phương pháp chưng cất kiến thức thường thể hiện hiệu suất tổng quát hóa tốt hơn so với các mô hình chỉ được đào tạo trên nhãn cứng. Chúng có thể học hỏi từ các biểu diễn đã học của giáo viên, dẫn đến độ chính xác và độ tin cậy được cải thiện.
  • Suy luận nhanh hơn: Các mô hình nhỏ hơn thường dẫn đến thời gian suy luận nhanh hơn, điều này rất cần thiết cho các ứng dụng thời gian thực như lái xe tự động, tự động hóa quy trình bằng rô-bốt (RPA)hệ thống an ninh .

Các ứng dụng thực tế của Chắt lọc kiến thức rất rộng rãi:

  • Xử lý ngôn ngữ tự nhiên (NLP): Trong NLP, chưng cất kiến thức có thể được sử dụng để nén các mô hình ngôn ngữ lớn như GPT-3 hoặc BERT thành các mô hình nhỏ hơn, hiệu quả hơn để triển khai trên thiết bị di động hoặc biên. Ví dụ, một mô hình chưng cất có thể cung cấp năng lượng cho phân tích tình cảm trên thiết bị di động mà không cần kết nối đám mây.
  • Thị giác máy tính: Ultralytics YOLOv8 hoặc các mô hình phát hiện đối tượng tương tự có thể được chưng cất để triển khai trong các ứng dụng thời gian thực trên các thiết bị biên. Ví dụ, trong các thành phố thông minh , các mô hình chưng cất có thể được sử dụng để giám sát và quản lý giao thông hiệu quả, chạy trực tiếp trên các thiết bị điện toán biên tại các giao lộ. Một ứng dụng khác là trong phân tích hình ảnh y tế , trong đó các mô hình chưng cất có thể cung cấp chẩn đoán sơ bộ nhanh hơn tại điểm chăm sóc.

Chưng cất kiến thức so với cắt tỉa mô hình và lượng tử hóa

Mặc dù Knowledge Distillation là một kỹ thuật nén mô hình, nhưng nó khác với các phương pháp khác như model pruningmodel quantization . Model pruning làm giảm kích thước của mô hình bằng cách loại bỏ các kết nối ít quan trọng hơn (trọng số), trong khi model quantization làm giảm độ chính xác của trọng số của mô hình để sử dụng ít bộ nhớ và tính toán hơn. Mặt khác, Knowledge Distillation đào tạo một mô hình mới, nhỏ hơn từ đầu bằng cách sử dụng kiến thức của một mô hình lớn hơn. Các kỹ thuật này cũng có thể được kết hợp; ví dụ, một mô hình chưng cất có thể được cắt tỉa hoặc lượng tử hóa thêm để đạt được khả năng nén và hiệu quả thậm chí còn lớn hơn. Các công cụ như Model Compression Toolkit (MCT) của SonyOpenVINO có thể được sử dụng để tối ưu hóa các mô hình hơn nữa sau khi chưng cất để triển khai biên.

Đọc tất cả