Thuật ngữ

Điều chỉnh hiệu quả tham số (PEFT)

Khám phá Parameter-Efficient Fine-Tuning (PEFT) để điều chỉnh các mô hình AI lớn với tài nguyên tối thiểu. Tiết kiệm chi phí, ngăn ngừa quá mức và tối ưu hóa việc triển khai!

Parameter-Efficient Fine-Tuning (PEFT) mô tả một tập hợp các kỹ thuật được sử dụng trong học máy (ML) để điều chỉnh các mô hình lớn, được đào tạo trước (như các mô hình nền tảng ) cho các tác vụ hạ lưu cụ thể mà không cần phải cập nhật tất cả các tham số của mô hình. Thay vào đó, các phương pháp PEFT tập trung vào việc chỉ sửa đổi một tập hợp con nhỏ các tham số hoặc thêm một số lượng nhỏ các tham số mới. Cách tiếp cận này làm giảm đáng kể chi phí tính toán và lưu trữ liên quan đến việc tinh chỉnh các mô hình lớn, chẳng hạn như các mô hình ngôn ngữ lớn (LLM) hoặc các mô hình thị giác quy mô lớn được sử dụng trong thị giác máy tính (CV) , giúp việc tùy chỉnh dễ tiếp cận và hiệu quả hơn.

Sự liên quan và lợi ích

Sự gia tăng của các mô hình được đào tạo trước cực lớn, thường chứa hàng tỷ tham số, đã khiến các phương pháp tinh chỉnh truyền thống tốn nhiều tài nguyên. Việc tinh chỉnh hoàn toàn các mô hình như vậy đòi hỏi sức mạnh tính toán đáng kể (thường là nhiều GPU cao cấp), lượng bộ nhớ lớn và không gian lưu trữ đáng kể cho mỗi mô hình được điều chỉnh. PEFT giải quyết những thách thức này bằng cách cung cấp một số lợi ích chính:

Giảm chi phí tính toán: Chỉ đào tạo một phần nhỏ các tham số đòi hỏi ít công suất tính toán và thời gian hơn đáng kể, cho phép lặp lại và thử nghiệm nhanh hơn, có khả năng sử dụng các nền tảng như Ultralytics HUB Cloud Training .
Yêu cầu bộ nhớ thấp hơn: Ít tham số hoạt động hơn có nghĩa là cần ít bộ nhớ hơn trong quá trình đào tạo và suy luận, giúp khả thi trong việc tinh chỉnh các mô hình lớn trên phần cứng cấp tiêu dùng hoặc thiết bị biên .
Dung lượng lưu trữ nhỏ hơn: Thay vì lưu một bản sao đầy đủ của mô hình được tinh chỉnh cho từng tác vụ, PEFT thường chỉ yêu cầu lưu trữ một tập hợp nhỏ các tham số đã sửa đổi hoặc thêm vào, giúp tiết kiệm đáng kể dung lượng lưu trữ.
Giảm thiểu tình trạng quá khớp: Bằng cách giới hạn số lượng tham số có thể đào tạo, PEFT có thể giảm nguy cơ quá khớp , đặc biệt là khi tinh chỉnh trên các tập dữ liệu nhỏ hơn.
Ngăn ngừa tình trạng quên thảm khốc: Các phương pháp PEFT, bằng cách giữ nguyên hầu hết các tham số mô hình cơ sở, giúp lưu giữ kiến thức chung đã học được trong quá trình đào tạo trước, khắc phục tình trạng quên thảm khốc khi mô hình mất đi các khả năng trước đó khi học các tác vụ mới.
Triển khai mô hình hiệu quả: Kích thước nhỏ hơn của các tham số cụ thể cho từng tác vụ giúp triển khai mô hình đơn giản hơn, đặc biệt là trong môi trường hạn chế về tài nguyên như AI biên .

Các khái niệm và kỹ thuật chính

PEFT xây dựng dựa trên khái niệm học chuyển giao , trong đó kiến thức từ mô hình cơ sở được áp dụng cho một nhiệm vụ mới. Trong khi tinh chỉnh tiêu chuẩn điều chỉnh nhiều (hoặc tất cả) lớp, PEFT sử dụng các phương pháp chuyên biệt. Một số kỹ thuật PEFT phổ biến bao gồm:

Bộ điều hợp : Các mô-đun mạng nơ-ron nhỏ được chèn vào giữa các lớp của mô hình được đào tạo trước. Chỉ các tham số của các mô-đun bộ điều hợp này được đào tạo trong quá trình tinh chỉnh, trong khi trọng số mô hình gốc vẫn được giữ nguyên.
LoRA (Low-Rank Adaptation) : Kỹ thuật này đưa các ma trận low-rank có thể đào tạo vào các lớp (thường là các lớp Transformer ) của một mô hình lớn. Nó đưa ra giả thuyết rằng sự thay đổi cần thiết để điều chỉnh mô hình có "hạng nội tại" thấp và có thể được biểu diễn hiệu quả. Đọc bài báo nghiên cứu LoRA gốc để biết chi tiết.
Prefix-Tuning : Thêm một chuỗi các vectơ liên tục, cụ thể cho từng tác vụ (tiền tố) vào đầu vào, giữ nguyên các tham số LLM cơ sở. Chỉ các tham số tiền tố được học.
Điều chỉnh nhắc nhở : Tương tự như Điều chỉnh tiền tố, nhưng đơn giản hóa bằng cách thêm "lời nhắc mềm" có thể đào tạo được (nhúng) vào chuỗi đầu vào, được tối ưu hóa trực tiếp thông qua truyền ngược .

Các thư viện như thư viện PEFT Hugging Face cung cấp các triển khai cho nhiều phương pháp PEFT khác nhau, giúp chúng dễ dàng tích hợp vào quy trình làm việc ML phổ biến hơn.

Phân biệt với các khái niệm liên quan

Điều quan trọng là phải phân biệt PEFT với các kỹ thuật điều chỉnh và tối ưu hóa mô hình khác:

Tinh chỉnh : Tinh chỉnh tiêu chuẩn thường cập nhật toàn bộ hoặc một phần đáng kể các tham số của mô hình được đào tạo trước trên một tập dữ liệu mới. Ngược lại, PEFT chỉ sửa đổi một phần rất nhỏ các tham số hoặc thêm một vài tham số mới.
Cắt tỉa mô hình : Kỹ thuật này bao gồm việc loại bỏ các tham số dư thừa hoặc không quan trọng (trọng số hoặc kết nối) khỏi mô hình đã được đào tạo để giảm kích thước và chi phí tính toán, thường là sau khi đào tạo hoặc tinh chỉnh hoàn toàn. PEFT tập trung vào việc thích ứng hiệu quả bằng cách giới hạn những gì được đào tạo ban đầu.
Chắt lọc kiến thức : Bao gồm việc đào tạo một mô hình "học sinh" nhỏ hơn để bắt chước hành vi của một mô hình "giáo viên" lớn hơn đã được đào tạo trước. PEFT trực tiếp điều chỉnh mô hình lớn, mặc dù hiệu quả.
Điều chỉnh siêu tham số : Quá trình này tập trung vào việc tìm kiếm các thiết lập cấu hình tối ưu cho quá trình đào tạo (ví dụ: tỷ lệ học tập, kích thước lô) thay vì điều chỉnh các tham số đã học của mô hình cho một nhiệm vụ mới. Các công cụ như Ultralytics Tuner lớp học tạo điều kiện thuận lợi cho việc này.

Ứng dụng trong thế giới thực

PEFT cho phép ứng dụng thực tế các mô hình lớn trên nhiều lĩnh vực khác nhau:

Xử lý ngôn ngữ tự nhiên (NLP): Điều chỉnh các mô hình như BERT hoặc GPT-4 cho các nhiệm vụ chuyên biệt như phân tích tình cảm trong tài liệu y khoa, tóm tắt tài liệu pháp lý hoặc tạo chatbot theo lĩnh vực cụ thể. Một công ty có thể sử dụng PEFT để tinh chỉnh LLM dịch vụ khách hàng chung trên cơ sở kiến thức nội bộ của họ để có phản hồi chính xác hơn mà không phải tốn chi phí đào tạo lại toàn bộ. Các nhóm nghiên cứu như Stanford NLP Group khám phá các ứng dụng này.
Computer Vision (CV): Tùy chỉnh các mô hình thị giác lớn như Vision Transformers (ViT) hoặc các mô hình Ultralytics YOLO cho các tác vụ nhận dạng hình ảnh cụ thể. Ví dụ, điều chỉnh một mô hình được đào tạo trước trên tập dữ liệu COCO rộng để phát hiện chính xác các đối tượng có khiếm khuyết riêng biệt trong kiểm soát chất lượng sản xuất , thực hiện phân đoạn hình ảnh chuyên biệt để phân tích hình ảnh y tế hoặc xác định các loài động vật cụ thể trong bẫy ảnh bảo tồn động vật hoang dã . Các công cụ như Ultralytics HUB có thể giúp quản lý các mô hình đã điều chỉnh này.

Về bản chất, Parameter-Efficient Fine-Tuning giúp các mô hình AI tiên tiến như mô hình Ultralytics YOLO trở nên linh hoạt hơn và tiết kiệm chi phí hơn để thích ứng với nhiều ứng dụng cụ thể, giúp mọi người dễ dàng tiếp cận các khả năng AI mạnh mẽ.

Điều chỉnh hiệu quả tham số (PEFT)

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Sự liên quan và lợi ích

Các khái niệm và kỹ thuật chính

Phân biệt với các khái niệm liên quan

Ứng dụng trong thế giới thực

Đọc thêm blog

Tham gia Ultralytics cộng đồng