Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Retrieval Augmented Generation (RAG)

Узнайте, как технология Retrieval Augmented Generation (RAG) оптимизирует LLM с помощью данных в реальном времени. Научитесь создавать мультимодальные конвейеры с помощью Ultralytics для визуального RAG.

Retrieval Augmented Generation (RAG) — это передовая технология в области искусственного интеллекта, которая оптимизирует выходные данные большой языковой модели (LLM) путем обращения к авторитетной базе знаний за пределами ее обучающих данных. Традиционные генеративные модели полагаются исключительно на статическую информацию, полученную в ходе первоначального обучения, что может привести к устаревшим ответам или уверенным неточностям, известным как галлюцинации. RAG устраняет этот пробел, извлекая актуальную информацию из внешних источников, таких как базы данных компаний, текущие новости или технические руководства, и подавая ее в модель в качестве контекста перед генерацией ответа. Этот процесс гарантирует, что результаты работы ИИ не только лингвистически согласованны, но и фактически точны и основаны на конкретных данных.

Как функционируют системы RAG

Архитектура системы RAG обычно включает в себя два основных этапа: извлечение и генерация. Такой рабочий процесс позволяет разработчикам поддерживать базовую модель без дорогостоящей необходимости частого переобучения.

  1. Поиск: когда пользователь отправляет запрос, система сначала выполняет семантический поиск по специализированной системе хранения данных, называемой векторной базой данных. Эта база данных содержит данные, преобразованные в числовые представления, известные как вложения, что позволяет системе находить концептуально похожую информацию, а не просто совпадающие ключевые слова.
  2. Генерация: Соответствующие документы или фрагменты данных, найденные во время поиска, объединяются с исходным вопросом пользователя. Затем этот обогащенный запрос отправляется в генеративную модель. Модель использует предоставленный контекст для синтеза ответа, гарантируя, что ответ основан на найденных фактах. Для более глубокого погружения в механику IBM предоставляет исчерпывающее руководство по рабочим процессам RAG.

Визуальный RAG: интеграция компьютерного зрения

Хотя RAG традиционно основан на тексте, с развитием мультимодального обучения появился «визуальный RAG». В этом сценарии механизм поиска выполняют модели компьютерного зрения. Они анализируют изображения или видеопотоки для извлечения структурированных текстовых данных, таких как названия объектов, количество или действия, которые затем передаются в LLM для ответа на вопросы о визуальной сцене.

Например, разработчик может использовать YOLO26 для detect на изображении и передать этот список объектов текстовой модели для генерации описательного отчета.

from ultralytics import YOLO

# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")

# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."

print(context_string)
# Output example: "The scene contains: bus, person, person, person."

Применение в реальном мире

RAG трансформирует отрасли, позволяя агентам ИИ безопасно получать доступ к проприетарным данным или данным в режиме реального времени.

  • Базы знаний предприятия: компании используют RAG для создания внутренних чат-ботов, которые отвечают на вопросы сотрудников о кадровой политике или технической документации. Подключив LLM к репозиторию актуальных документов, система избегает предоставления устаревшей информации о политике. Для получения дополнительной информации о внедрении в предприятии см. обзорGoogle о RAG в Vertex AI.
  • Поддержка клинических решений: в сфере искусственного интеллекта в здравоохранении системы RAG могут извлекать историю болезни пациента и последние медицинские исследования, чтобы помочь врачам в постановке диагноза, гарантируя, что рекомендации учитывают самые последние клинические исследования.
  • Умные помощники в розничной торговле: приложения, использующие ИИ в розничной торговле, используют RAG для проверки баз данных с информацией о запасах в режиме реального времени. Если клиент спрашивает чат-бота: «Есть ли у вас эти кроссовки 10 размера?», модель перед ответом получает информацию об уровне запасов в режиме реального времени, что позволяет избежать разочарования из-за отсутствия товара на складе.

RAG против тонкой настройки

Очень важно отличать RAG от тонкой настройки, поскольку они решают разные проблемы.

  • RAG (Retrieval Augmented Generation): Лучше всего подходит для доступа к динамическим, часто меняющимся данным (например, ценам акций, новостям) или частным данным, отсутствующим в общедоступном наборе обучающих данных. Он ориентирован на предоста вление новой информации во время выполнения.
  • Точная настройка: лучше всего подходит для адаптации поведения, стиля или терминологии модели. Она включает в себя обновление весов модели на основе конкретного набора данных. Хотя точная настройка помогает модели изучить конкретный языковой паттерн (например, медицинский жаргон), она не дает доступа к фактам в режиме реального времени. См . руководство OpenAI по точной настройке и RAG для фреймворков принятия решений .

Связанные понятия

  • LangChain: популярный фреймворк с открытым исходным кодом, специально разработанный для упрощения создания приложений RAG путем объединения ретриверов и LLM.
  • Граф знаний: структурированный способ представления данных, который может использоваться в качестве источника поиска и предлагает более контекстуально насыщенные отношения, чем простое векторное сходство.
  • Программирование подсказок: искусство создания входных данных для управления моделью. RAG — это, по сути, автоматизированная форма программирования подсказок, где «подсказка» обогащается программно извлеченными данными.
  • Ultralytics : в то время как RAG занимается генерацией текста, подобные платформы необходимы для управления предварительной обработкой данных и обучением моделей зрительного восприятия, которые подают визуальные данные в мультимодальные конвейеры RAG.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас