Retrieval Augmented Generation (RAG) là một kỹ thuật tiên tiến trong trí tuệ nhân tạo (AI) được thiết kế để nâng cao chất lượng và độ tin cậy của các phản hồi do Large Language Models (LLM) tạo ra. Nó hoạt động bằng cách kết hợp các khả năng tạo ra của LLM với hệ thống truy xuất thông tin. Trước khi tạo phản hồi, hệ thống RAG trước tiên sẽ truy xuất các đoạn thông tin có liên quan từ một nguồn kiến thức được xác định trước (như tài liệu nội bộ của công ty, cơ sở dữ liệu cụ thể hoặc web). Sau đó, ngữ cảnh đã truy xuất này được cung cấp cho LLM cùng với truy vấn gốc của người dùng, cho phép mô hình tạo ra các câu trả lời chính xác hơn, cập nhật hơn và dựa trên dữ liệu thực tế, do đó giảm thiểu các vấn đề như ảo giác .
Cách thức hoạt động của Retrieval Augmented Generation
Quy trình RAG thường bao gồm hai giai đoạn chính:
- Truy xuất: Khi người dùng cung cấp lời nhắc hoặc truy vấn, hệ thống trước tiên sử dụng thông tin đầu vào này để tìm kiếm một khối lượng lớn tài liệu hoặc cơ sở dữ liệu vector . Tìm kiếm này nhằm mục đích tìm các đoạn văn bản hoặc tài liệu có chứa thông tin liên quan đến truy vấn. Các kỹ thuật như tìm kiếm ngữ nghĩa thường được sử dụng ở đây để tìm thông tin tương tự theo ngữ cảnh, không chỉ là các từ khóa khớp.
- Generation: Thông tin có liên quan được lấy trong giai đoạn đầu tiên sau đó được kết hợp với lời nhắc người dùng ban đầu. Lời nhắc tăng cường này, giờ đây đã có nhiều ngữ cảnh cụ thể, được đưa vào LLM. LLM sử dụng cả truy vấn ban đầu và ngữ cảnh được cung cấp để tổng hợp phản hồi toàn diện và có căn cứ thực tế. Quy trình này đã được giới thiệu chính thức trong nghiên cứu như bài báo về Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks .
Lợi ích và ứng dụng
RAG có một số lợi thế so với việc chỉ sử dụng LLM tiêu chuẩn:
- Độ chính xác được cải thiện: Bằng cách dựa trên phản hồi từ dữ liệu bên ngoài, RAG làm giảm khả năng LLM tạo ra thông tin không chính xác hoặc bịa đặt.
- Truy cập thông tin hiện tại: Hệ thống RAG có thể truy cập thông tin mới nhất được lưu trữ trong cơ sở kiến thức của họ, khắc phục hạn chế của LLM có kiến thức bị đóng băng tại thời điểm đào tạo cuối cùng của họ.
- Kiến thức chuyên ngành: Cho phép LLM cung cấp câu trả lời ở cấp độ chuyên gia trong các lĩnh vực chuyên biệt bằng cách thu thập thông tin từ các tài liệu kỹ thuật hoặc cơ sở dữ liệu cụ thể.
- Tính minh bạch và tin cậy: Các hệ thống RAG thường có thể trích dẫn các nguồn được sử dụng để tạo dữ liệu, tăng cường lòng tin của người dùng và cho phép kiểm tra thực tế, điều này rất quan trọng đối với đạo đức AI .
Ví dụ thực tế:
- Quản lý kiến thức doanh nghiệp: Các công ty sử dụng RAG để xây dựng các chatbot nội bộ có thể trả lời chính xác các câu hỏi của nhân viên bằng cách thu thập thông tin từ các chính sách nội bộ, hướng dẫn kỹ thuật và báo cáo được lưu trữ trên các nền tảng như SharePoint hoặc cơ sở kiến thức chuyên dụng.
- Tự động hóa hỗ trợ khách hàng: Nền tảng dịch vụ khách hàng tận dụng RAG để cung cấp cho các nhân viên hỗ trợ hoặc chatbot thông tin có liên quan từ Câu hỏi thường gặp, tài liệu sản phẩm và phiếu hỗ trợ trước đây, cho phép giải quyết truy vấn của khách hàng nhanh hơn và chính xác hơn. Các công cụ như Zendesk đang kết hợp các tính năng như vậy.
RAG so với các khái niệm liên quan
- RAG so với LLM chuẩn: LLM chuẩn tạo ra phản hồi chỉ dựa trên các mẫu đã học trong quá trình đào tạo. RAG tăng cường điều này bằng cách kết hợp thông tin bên ngoài một cách năng động tại thời điểm suy luận, dẫn đến đầu ra có liên quan đến ngữ cảnh và thực tế hơn.
- RAG so với Fine-Tuning: Fine-tuning điều chỉnh một mô hình được đào tạo trước cho các tác vụ hoặc miền cụ thể bằng cách tiếp tục quá trình đào tạo trên một tập dữ liệu chuyên biệt nhỏ hơn. Mặc dù hiệu quả, nhưng nó đòi hỏi nhiều tài nguyên tính toán và đào tạo lại để cập nhật kiến thức. RAG cho phép cập nhật kiến thức bằng cách chỉ cần sửa đổi nguồn dữ liệu bên ngoài mà không cần đào tạo lại LLM, giúp nó linh hoạt hơn đối với thông tin thay đổi nhanh chóng. RAG và fine-tuning cũng có thể được sử dụng cùng nhau.
- RAG so với Kỹ thuật nhắc nhở: Kỹ thuật nhắc nhở liên quan đến việc cẩn thận tạo ra lời nhắc đầu vào để hướng dẫn phản hồi của LLM. RAG tự động hóa quy trình cung cấp ngữ cảnh có liên quan trong lời nhắc bằng cách lấy nó từ một nguồn bên ngoài. Các khuôn khổ như LangChain và LlamaIndex cung cấp các công cụ để xây dựng các đường ống RAG.
RAG đại diện cho một bước tiến quan trọng hướng tới việc tạo ra các hệ thống AI đáng tin cậy và hiểu biết hơn, thu hẹp khoảng cách giữa sức mạnh tạo ra khổng lồ của LLM và nhu cầu về độ chính xác thực tế. Mặc dù thường gắn liền với văn bản, khái niệm này có khả năng mở rộng để tăng cường các mô hình như Ultralytics YOLO bằng cách truy xuất các ví dụ trực quan hoặc siêu dữ liệu có liên quan, mặc dù đây vẫn là một lĩnh vực nghiên cứu mới nổi trong lĩnh vực thị giác máy tính . Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc quản lý các mô hình và tập dữ liệu có khả năng đóng vai trò là nguồn kiến thức trong các ứng dụng RAG đa phương thức trong tương lai. Việc khám phá các tập dữ liệu có sẵn có thể cung cấp thông tin chi tiết về loại thông tin có cấu trúc có thể hữu ích.