Retrieval Augmented Generation (RAG)
Узнайте, как технология Retrieval Augmented Generation (RAG) оптимизирует LLM с помощью данных в реальном времени. Научитесь создавать мультимодальные конвейеры с помощью Ultralytics для визуального RAG.
Retrieval Augmented Generation (RAG) — это передовая технология в области искусственного интеллекта, которая оптимизирует
выходные данные
большой языковой модели (LLM) путем обращения к
авторитетной базе знаний за пределами ее обучающих данных. Традиционные генеративные модели полагаются исключительно на статическую
информацию, полученную в ходе первоначального обучения, что может привести к устаревшим ответам или уверенным неточностям, известным
как галлюцинации. RAG устраняет этот пробел,
извлекая актуальную информацию из внешних источников, таких как базы данных компаний, текущие новости или
технические руководства, и подавая ее в модель в качестве контекста перед генерацией ответа. Этот процесс гарантирует, что
результаты работы ИИ не только лингвистически согласованны, но и фактически точны и основаны на конкретных данных.
Как функционируют системы RAG
Архитектура системы RAG обычно включает в себя два основных этапа: извлечение и генерация. Такой рабочий процесс позволяет
разработчикам поддерживать базовую модель без
дорогостоящей необходимости частого переобучения.
-
Поиск: когда пользователь отправляет запрос, система сначала выполняет
семантический поиск по специализированной системе хранения
данных, называемой векторной базой данных. Эта база данных
содержит данные, преобразованные в числовые представления, известные как
вложения, что позволяет системе находить концептуально
похожую информацию, а не просто совпадающие ключевые слова.
-
Генерация: Соответствующие документы или фрагменты данных, найденные во время поиска, объединяются с
исходным вопросом пользователя. Затем этот обогащенный запрос отправляется в генеративную модель. Модель использует предоставленный
контекст для синтеза ответа, гарантируя, что ответ основан на найденных фактах. Для более глубокого погружения в
механику
IBM предоставляет исчерпывающее руководство по рабочим процессам RAG.
Визуальный RAG: интеграция компьютерного зрения
Хотя RAG традиционно основан на тексте, с развитием
мультимодального обучения появился
«визуальный RAG». В этом сценарии
механизм поиска выполняют модели компьютерного зрения.
Они анализируют изображения или видеопотоки для извлечения структурированных текстовых данных, таких как названия объектов, количество или
действия, которые затем передаются в LLM для ответа на вопросы о визуальной сцене.
Например, разработчик может использовать YOLO26 для detect на
изображении и передать этот список объектов текстовой модели для генерации описательного отчета.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."
Применение в реальном мире
RAG трансформирует отрасли, позволяя агентам ИИ
безопасно получать доступ к проприетарным данным или данным в режиме реального времени.
-
Базы знаний предприятия: компании используют RAG для создания внутренних чат-ботов, которые отвечают на вопросы сотрудников
о кадровой политике или технической документации. Подключив LLM к репозиторию актуальных документов, система
избегает предоставления устаревшей информации о политике. Для получения дополнительной информации о внедрении в предприятии см.
обзорGoogle о RAG в Vertex AI.
-
Поддержка клинических решений: в
сфере искусственного интеллекта в здравоохранении системы RAG могут извлекать
историю болезни пациента и последние медицинские исследования, чтобы помочь врачам в постановке диагноза, гарантируя, что рекомендации учитывают
самые последние клинические исследования.
-
Умные помощники в розничной торговле: приложения, использующие
ИИ в розничной торговле, используют RAG для проверки баз данных с информацией о запасах в режиме реального времени.
Если клиент спрашивает чат-бота: «Есть ли у вас эти кроссовки 10 размера?», модель
перед ответом получает информацию об уровне запасов в режиме реального времени, что позволяет избежать разочарования из-за отсутствия товара на складе.
RAG против тонкой настройки
Очень важно отличать RAG от тонкой настройки, поскольку
они решают разные проблемы.
-
RAG (Retrieval Augmented Generation): Лучше всего подходит для доступа к динамическим, часто меняющимся данным (например,
ценам акций, новостям) или частным данным, отсутствующим в общедоступном наборе обучающих данных. Он ориентирован на предоста вление
новой информации во время выполнения.
-
Точная настройка: лучше всего подходит для адаптации поведения, стиля или терминологии модели. Она включает в себя обновление
весов модели на основе конкретного набора данных. Хотя
точная настройка помогает модели изучить конкретный языковой паттерн (например, медицинский жаргон), она не дает доступа к
фактам в режиме реального времени. См .
руководство OpenAI по точной настройке и RAG для
фреймворков принятия решений .
Связанные понятия
-
LangChain: популярный фреймворк с открытым исходным кодом,
специально разработанный для упрощения создания приложений RAG путем объединения ретриверов и
LLM.
-
Граф знаний: структурированный
способ представления данных, который может использоваться в качестве источника поиска и предлагает более контекстуально насыщенные отношения, чем
простое векторное сходство.
-
Программирование подсказок: искусство
создания входных данных для управления моделью. RAG — это, по сути, автоматизированная форма программирования подсказок, где
«подсказка» обогащается программно извлеченными данными.
-
Ultralytics : в то время как RAG занимается
генерацией текста, подобные платформы необходимы для управления
предварительной обработкой данных и обучением моделей
зрительного восприятия, которые подают визуальные данные в мультимодальные конвейеры RAG.