Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Retrieval Augmented Generation (RAG)

Khám phá cách Retrieval Augmented Generation (RAG) tối ưu hóa LLM với dữ liệu thời gian thực. Tìm hiểu cách xây dựng các quy trình đa phương thức bằng cách sử dụng Ultralytics YOLO26 dành cho RAG trực quan.

Retrieval Augmented Generation (RAG) là một kỹ thuật tiên tiến trong lĩnh vực trí tuệ nhân tạo, tối ưu hóa đầu ra của Mô hình Ngôn ngữ Lớn (LLM) bằng cách tham chiếu đến một cơ sở tri thức đáng tin cậy bên ngoài dữ liệu huấn luyện. Các mô hình tạo sinh truyền thống chỉ dựa vào thông tin tĩnh được học trong quá trình huấn luyện ban đầu, điều này có thể dẫn đến các câu trả lời lỗi thời hoặc những thông tin không chính xác nhưng mang tính tự tin thái quá, được gọi là ảo giác . RAG khắc phục nhược điểm này bằng cách truy xuất thông tin liên quan, cập nhật từ các nguồn bên ngoài—chẳng hạn như cơ sở dữ liệu của công ty, tin tức hiện tại hoặc tài liệu kỹ thuật—và cung cấp thông tin đó cho mô hình dưới dạng ngữ cảnh trước khi tạo ra phản hồi. Quá trình này đảm bảo rằng đầu ra của AI không chỉ mạch lạc về mặt ngôn ngữ mà còn chính xác về mặt thực tế và dựa trên dữ liệu cụ thể.

Hệ thống RAG hoạt động như thế nào?

Kiến trúc của một hệ thống RAG thường bao gồm hai giai đoạn chính: truy xuất và tạo. Quy trình này cho phép các nhà phát triển duy trì một mô hình nền tảng mà không cần tốn kém chi phí cho việc huấn luyện lại thường xuyên.

  1. Truy xuất: Khi người dùng gửi truy vấn, hệ thống trước tiên thực hiện tìm kiếm ngữ nghĩa trên một hệ thống lưu trữ chuyên dụng được gọi là cơ sở dữ liệu vector . Cơ sở dữ liệu này chứa dữ liệu đã được chuyển đổi thành các biểu diễn số được gọi là embedding , cho phép hệ thống tìm kiếm thông tin tương tự về mặt khái niệm thay vì chỉ khớp với từ khóa.
  2. Tạo câu trả lời: Các tài liệu hoặc đoạn dữ liệu liên quan được tìm thấy trong quá trình truy xuất sẽ được kết hợp với câu hỏi ban đầu của người dùng. Câu hỏi được làm giàu này sau đó được gửi đến mô hình tạo câu trả lời. Mô hình sử dụng ngữ cảnh được cung cấp để tổng hợp câu trả lời, đảm bảo rằng câu trả lời dựa trên các thông tin đã được truy xuất. Để hiểu sâu hơn về cơ chế hoạt động, IBM cung cấp hướng dẫn toàn diện về quy trình làm việc RAG .

Visual RAG: Tích hợp thị giác máy tính

Mặc dù RAG truyền thống dựa trên văn bản, sự phát triển của học tập đa phương thức đã giới thiệu "RAG trực quan". Trong trường hợp này, các mô hình thị giác máy tính đóng vai trò là cơ chế truy xuất. Chúng phân tích hình ảnh hoặc luồng video để trích xuất dữ liệu văn bản có cấu trúc—chẳng hạn như tên đối tượng, số lượng hoặc hoạt động—sau đó được đưa vào LLM để trả lời các câu hỏi về khung cảnh trực quan.

Ví dụ, một nhà phát triển có thể sử dụng YOLO26 để detect tìm các đối tượng trong một hình ảnh và chuyển danh sách các đối tượng đó cho một mô hình văn bản để tạo ra một báo cáo mô tả.

from ultralytics import YOLO

# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")

# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."

print(context_string)
# Output example: "The scene contains: bus, person, person, person."

Các Ứng dụng Thực tế

RAG đang chuyển đổi các ngành công nghiệp bằng cách cho phép các tác nhân AI truy cập dữ liệu độc quyền hoặc dữ liệu thời gian thực một cách an toàn.

  • Cơ sở tri thức doanh nghiệp: Các công ty sử dụng RAG để xây dựng chatbot nội bộ nhằm trả lời các câu hỏi của nhân viên về chính sách nhân sự hoặc tài liệu kỹ thuật. Bằng cách kết nối LLM với kho lưu trữ tài liệu trực tuyến, hệ thống tránh cung cấp thông tin chính sách lỗi thời. Để biết thêm về triển khai trong doanh nghiệp, hãy xem tổng quan về RAG của Google Cloud trong Vertex AI .
  • Hỗ trợ ra quyết định lâm sàng: Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe , hệ thống RAG có thể truy xuất bệnh sử và các bài nghiên cứu y khoa gần đây để hỗ trợ bác sĩ chẩn đoán, đảm bảo lời khuyên được đưa ra dựa trên các nghiên cứu lâm sàng mới nhất.
  • Trợ lý bán lẻ thông minh: Các ứng dụng sử dụng trí tuệ nhân tạo (AI) trong bán lẻ tận dụng RAG để kiểm tra cơ sở dữ liệu tồn kho theo thời gian thực. Nếu khách hàng hỏi chatbot, "Bạn có đôi giày chạy bộ này cỡ 10 không?", mô hình sẽ truy xuất mức tồn kho theo thời gian thực trước khi trả lời, tránh gây khó chịu khi khách hàng gặp phải tình trạng hết hàng.

RAG so với Tinh chỉnh

Điều quan trọng là phải phân biệt RAG với việc tinh chỉnh , vì chúng giải quyết các vấn đề khác nhau.

  • RAG (Retrieval Augmented Generation): Phương pháp tốt nhất để truy cập dữ liệu động, thay đổi thường xuyên (ví dụ: giá cổ phiếu, tin tức) hoặc dữ liệu riêng tư không có trong tập dữ liệu huấn luyện công khai. Nó tập trung vào việc cung cấp thông tin mới trong thời gian thực.
  • Tinh chỉnh (Fine-tuning): Phương pháp tốt nhất để điều chỉnh hành vi, phong cách hoặc thuật ngữ của mô hình. Nó bao gồm việc cập nhật trọng số của mô hình trên một tập dữ liệu cụ thể. Mặc dù tinh chỉnh giúp mô hình học được một mẫu ngôn ngữ cụ thể (như thuật ngữ y khoa), nhưng nó không cung cấp quyền truy cập vào các dữ kiện thời gian thực. Xem hướng dẫn của OpenAI về tinh chỉnh so với RAG để biết các khung ra quyết định.

Các Khái Niệm Liên Quan

  • LangChain : Một framework mã nguồn mở phổ biến được thiết kế đặc biệt để đơn giản hóa việc tạo các ứng dụng RAG bằng cách kết nối các bộ truy xuất và LLM với nhau.
  • Đồ thị tri thức : Một cách thức có cấu trúc để biểu diễn dữ liệu, có thể được sử dụng như một nguồn truy xuất, cung cấp các mối quan hệ giàu ngữ cảnh hơn so với sự tương đồng vectơ đơn giản.
  • Kỹ thuật xử lý dữ liệu đầu vào (Prompt Engineering ): Nghệ thuật tạo ra các dữ liệu đầu vào để hướng dẫn mô hình. RAG về cơ bản là một hình thức tự động hóa của kỹ thuật xử lý dữ liệu đầu vào, trong đó "dữ liệu đầu vào" được làm giàu bằng dữ liệu được truy xuất một cách lập trình.
  • Nền tảng Ultralytics : Trong khi RAG xử lý phần tạo văn bản, các nền tảng như thế này rất cần thiết để quản lý quá trình tiền xử lý dữ liệu và huấn luyện các mô hình thị giác cung cấp dữ liệu hình ảnh cho các quy trình RAG đa phương thức.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay