Tối ưu hóa hiệu suất AI với lượng tử hóa mô hình. Giảm kích thước, tăng tốc độ và cải thiện hiệu quả năng lượng cho các triển khai trong thế giới thực.
Lượng tử hóa mô hình là một kỹ thuật tối ưu hóa mô hình quan trọng được sử dụng trong học sâu (DL) để giảm chi phí tính toán và bộ nhớ của các mô hình. Nó đạt được điều này bằng cách chuyển đổi độ chính xác số của các tham số mô hình ( trọng số và kích hoạt) từ các biểu diễn có độ chính xác cao hơn, thường là số dấu phẩy động 32 bit ( FP32 ), sang các định dạng có độ chính xác thấp hơn, chẳng hạn như số dấu phẩy động 16 bit (FP16), số nguyên 8 bit (INT8) hoặc thậm chí các biểu diễn bit thấp hơn. Quá trình này làm cho các mô hình nhỏ hơn, nhanh hơn và tiết kiệm năng lượng hơn, điều này đặc biệt quan trọng đối với việc triển khai các mô hình phức tạp trên các môi trường hạn chế về tài nguyên như thiết bị di động hoặc hệ thống AI biên .
Về bản chất, lượng tử hóa mô hình liên quan đến việc ánh xạ phạm vi giá trị được tìm thấy trong tenxơ có độ chính xác cao (như trọng số và kích hoạt trong FP32) thành phạm vi nhỏ hơn có thể biểu diễn bằng các kiểu dữ liệu có độ chính xác thấp hơn (như INT8 ). Sự chuyển đổi này làm giảm đáng kể bộ nhớ cần thiết để lưu trữ mô hình và sức mạnh tính toán cần thiết cho suy luận , vì các phép toán trên các số có độ chính xác thấp hơn (đặc biệt là số nguyên) thường nhanh hơn và tiết kiệm năng lượng hơn trên phần cứng hiện đại như GPU và bộ tăng tốc chuyên dụng như TPU .
Việc áp dụng lượng tử hóa vào các mô hình học sâu mang lại một số lợi thế chính:
Có hai cách tiếp cận chính để lượng tử hóa mô hình:
Lượng tử hóa mô hình được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau:
Mặc dù có lợi ích cao, lượng tử hóa có khả năng tác động đến độ chính xác của mô hình. Đánh giá cẩn thận bằng cách sử dụng các số liệu hiệu suất có liên quan là điều cần thiết sau khi lượng tử hóa. Các kỹ thuật như sử dụng kiến trúc mô hình thân thiện với lượng tử hóa (ví dụ: thay thế một số hàm kích hoạt như được thấy trong YOLO -NAS ) có thể giúp giảm thiểu sự suy giảm độ chính xác, như đã thảo luận trong triển khai các mô hình YOLOv8 lượng tử hóa .
Lượng tử hóa mô hình là một trong số nhiều kỹ thuật tối ưu hóa mô hình. Những kỹ thuật khác bao gồm:
Ultralytics hỗ trợ xuất mô hình sang nhiều định dạng khác nhau giúp lượng tử hóa dễ dàng, bao gồm ONNX , OpenVINO , TensorRT , CoreML và TFLite , cho phép triển khai hiệu quả trên nhiều nền tảng phần cứng khác nhau. Bạn có thể quản lý và triển khai mô hình của mình, bao gồm các phiên bản lượng tử hóa, bằng các công cụ như Ultralytics HUB .