Parameter-Efficient Fine-Tuning (PEFT) mô tả một tập hợp các kỹ thuật được sử dụng trong học máy (ML) để điều chỉnh các mô hình lớn, được đào tạo trước (như các mô hình nền tảng) cho các tác vụ hạ lưu cụ thể mà không cần phải cập nhật tất cả các tham số của mô hình. Thay vào đó, các phương pháp PEFT tập trung vào việc chỉ sửa đổi một tập hợp con nhỏ các tham số hoặc thêm một số lượng nhỏ các tham số mới. Cách tiếp cận này làm giảm đáng kể chi phí tính toán và lưu trữ liên quan đến việc tinh chỉnh các mô hình lớn, chẳng hạn như các mô hình ngôn ngữ lớn (LLM) hoặc các mô hình thị giác quy mô lớn được sử dụng trong thị giác máy tính (CV) , giúp việc tùy chỉnh dễ tiếp cận và hiệu quả hơn.
Sự liên quan và lợi ích
Sự gia tăng của các mô hình được đào tạo trước cực lớn, thường chứa hàng tỷ tham số, đã khiến các phương pháp tinh chỉnh truyền thống tốn nhiều tài nguyên. Việc tinh chỉnh hoàn toàn các mô hình như vậy đòi hỏi sức mạnh tính toán đáng kể (thường là nhiều GPU cao cấp), lượng bộ nhớ lớn và không gian lưu trữ đáng kể cho mỗi mô hình được điều chỉnh. PEFT giải quyết những thách thức này bằng cách cung cấp một số lợi ích chính:
- Giảm chi phí tính toán: Chỉ đào tạo một phần nhỏ các tham số giúp giảm đáng kể nhu cầu về phần cứng đắt tiền và giảm thời gian đào tạo. Các nền tảng như Ultralytics HUB Cloud Training có thể hợp lý hóa quy trình này hơn nữa.
- Yêu cầu lưu trữ thấp hơn: Vì mô hình lớn ban đầu vẫn không thay đổi nên chỉ cần lưu trữ một tập hợp nhỏ các tham số đã sửa đổi hoặc thêm vào cho mỗi tác vụ, giúp tiết kiệm đáng kể dung lượng lưu trữ.
- Giảm thiểu tình trạng quên thảm khốc: Bằng cách đóng băng hầu hết các trọng số của mô hình được đào tạo trước, PEFT giúp ngăn mô hình mất đi kiến thức chung mà nó thu được trong quá trình đào tạo trước khi học một nhiệm vụ mới. Tìm hiểu thêm về cách khắc phục tình trạng quên thảm khốc .
- Cải thiện khả năng khái quát hóa trên các chế độ dữ liệu thấp: Đôi khi, việc tinh chỉnh ít tham số hơn có thể mang lại hiệu suất tốt hơn cho các tác vụ có dữ liệu hạn chế, vì nó làm giảm nguy cơ quá khớp với tập dữ liệu nhỏ.
- Triển khai dễ dàng hơn: Các bộ tham số nhỏ hơn dành riêng cho tác vụ giúp đơn giản hóa việc triển khai mô hình , đặc biệt là trong môi trường hạn chế về tài nguyên như thiết bị AI biên .
Các khái niệm và kỹ thuật chính
PEFT xây dựng dựa trên khái niệm học chuyển giao , trong đó kiến thức từ mô hình cơ sở được áp dụng cho một nhiệm vụ mới. Trong khi tinh chỉnh tiêu chuẩn điều chỉnh nhiều (hoặc tất cả) lớp, PEFT sử dụng các phương pháp chuyên biệt. Một số kỹ thuật PEFT phổ biến bao gồm:
- Bộ điều hợp: Các mô-đun mạng nơ-ron nhỏ được chèn vào giữa các lớp hiện có của mô hình được đào tạo trước. Chỉ các tham số của các lớp bộ điều hợp mới này được đào tạo. Xem bài báo nghiên cứu Bộ điều hợp gốc để biết chi tiết.
- LoRA (Điều chỉnh bậc thấp) : Đưa các ma trận bậc thấp có thể đào tạo vào các lớp của kiến trúc máy biến áp, xấp xỉ các bản cập nhật trọng số trong khi giảm đáng kể số lượng tham số có thể đào tạo.
- Điều chỉnh tiền tố: Thêm một tập hợp nhỏ các vectơ tiền tố có thể đào tạo vào đầu vào của các lớp biến áp, tác động đến cơ chế chú ý của mô hình mà không sửa đổi trọng số ban đầu. Đọc bài báo Điều chỉnh tiền tố .
- Điều chỉnh lời nhắc : Học các lời nhắc mềm (nhúng vectơ liên tục) được thêm vào chuỗi đầu vào, hướng dẫn hành vi của mô hình đóng băng cho nhiệm vụ cụ thể.
Các thư viện như thư viện PEFT Hugging Face cung cấp các triển khai cho nhiều phương pháp PEFT khác nhau.
Phân biệt với các khái niệm liên quan
Điều quan trọng là phải phân biệt PEFT với các kỹ thuật điều chỉnh và tối ưu hóa mô hình khác:
- Full Fine-Tuning: Cập nhật toàn bộ hoặc một phần lớn các tham số của mô hình được đào tạo trước. Chi phí tính toán cao nhưng có thể đạt hiệu suất cao nếu có đủ dữ liệu và tài nguyên.
- Cắt tỉa mô hình : Nhằm mục đích giảm kích thước mô hình và độ trễ suy luận bằng cách loại bỏ các tham số dư thừa hoặc không quan trọng (trọng số hoặc kết nối) khỏi mô hình đã được đào tạo. Không giống như PEFT, cắt tỉa tập trung vào việc nén hơn là điều chỉnh tác vụ.
- Chưng cất kiến thức : Bao gồm việc đào tạo một mô hình "học sinh" nhỏ hơn để bắt chước đầu ra hoặc hành vi của một mô hình "giáo viên" lớn hơn. Mục tiêu là chuyển giao kiến thức để có hiệu suất tốt hơn trong mô hình nhỏ hơn, trong khi PEFT trực tiếp điều chỉnh mô hình lớn với những thay đổi tối thiểu.
- Điều chỉnh siêu tham số : Tập trung vào việc tìm kiếm các thiết lập cấu hình tối ưu (như tốc độ học hoặc kích thước lô) cho quá trình đào tạo, thay vì sửa đổi trực tiếp các tham số mô hình để điều chỉnh tác vụ.
Ứng dụng trong thế giới thực
PEFT cho phép ứng dụng thực tế các mô hình lớn trên nhiều lĩnh vực khác nhau:
- Xử lý ngôn ngữ tự nhiên (NLP): Điều chỉnh các mô hình nền tảng như GPT-4 hoặc BERT cho các tác vụ cụ thể như tạo chatbot chuyên biệt cho dịch vụ khách hàng, thực hiện phân tích tình cảm có mục tiêu cho nghiên cứu thị trường hoặc tóm tắt các tài liệu cụ thể theo lĩnh vực (ví dụ: văn bản pháp lý hoặc y tế). Nhiều nguồn tài nguyên có sẵn từ các nhóm như Stanford NLP Group .
- Thị giác máy tính: Tùy chỉnh các mô hình thị giác mạnh mẽ, bao gồm các mô hình YOLO Ultralytics , cho các nhiệm vụ phát hiện đối tượng hoặc phân đoạn hình ảnh chuyên biệt. Ví dụ bao gồm xác định các loại khuyết tật cụ thể trên dây chuyền lắp ráp sản xuất bằng cách sử dụng mô hình ban đầu được đào tạo trên các tập dữ liệu chung như COCO hoặc điều chỉnh các mô hình để phân tích hình ảnh y tế chính xác hoặc theo dõi các loài có nguy cơ tuyệt chủng trong bảo tồn động vật hoang dã .
Về bản chất, Parameter-Efficient Fine-Tuning giúp các mô hình AI tiên tiến như mô hình Ultralytics YOLO trở nên linh hoạt hơn và tiết kiệm chi phí hơn để thích ứng với nhiều ứng dụng cụ thể, giúp mọi người dễ dàng tiếp cận các khả năng AI mạnh mẽ.