Geração Aumentada por Recuperação (RAG)
Explore como a Retrieval Augmented Generation (RAG) otimiza LLMs com dados em tempo real. Aprenda a construir pipelines multimodais usando Ultralytics para RAG visual.
A Retrieval Augmented Generation (RAG) é uma técnica avançada no campo da inteligência artificial que otimiza
a produção de um
Large Language Model (LLM) ao consultar
uma base de conhecimento autorizada fora dos seus dados de treino. Os modelos generativos tradicionais dependem exclusivamente de
informações estáticas aprendidas durante o seu treino inicial, o que pode levar a respostas desatualizadas ou imprecisões confiáveis conhecidas
como alucinações. A RAG preenche essa lacuna ao
recuperar informações relevantes e atualizadas de fontes externas — como bases de dados da empresa, notícias atuais ou
manuais técnicos — e alimentá-las ao modelo como contexto antes de uma resposta ser gerada. Esse processo garante que os
resultados da IA não sejam apenas linguisticamente coerentes, mas também factualmente precisos e baseados em dados específicos.
Como funcionam os sistemas RAG
A arquitetura de um sistema RAG normalmente envolve duas fases principais: recuperação e geração. Esse fluxo de trabalho permite que
os desenvolvedores mantenham um modelo básico sem
a necessidade dispendiosa de retreinamento frequente.
-
Recuperação: Quando um utilizador envia uma consulta, o sistema primeiro realiza uma
pesquisa semântica em um sistema de armazenamento especializado
chamado banco de dados vetorial. Esse banco de dados
contém dados que foram convertidos em representações numéricas conhecidas como
embeddings, permitindo que o sistema encontre informações conceitualmente
semelhantes, em vez de apenas palavras-chave correspondentes.
-
Geração: Os documentos ou trechos de dados relevantes encontrados durante a recuperação são combinados com a
pergunta original do utilizador. Esse prompt enriquecido é então enviado ao modelo generativo. O modelo usa esse contexto fornecido
para sintetizar uma resposta, garantindo que ela se baseie nos fatos recuperados. Para um aprofundamento na
mecânica,
a IBM fornece um guia abrangente sobre fluxos de trabalho RAG.
RAG visual: integrando visão computacional
Embora o RAG seja tradicionalmente baseado em texto, o surgimento da
aprendizagem multimodal introduziu o
"RAG visual". Nesse cenário,
os modelos de visão computacional atuam como mecanismo de recuperação
. Eles analisam imagens ou fluxos de vídeo para extrair dados textuais estruturados — como nomes de objetos, contagens ou
atividades — que são então alimentados em um LLM para responder a perguntas sobre a cena visual.
Por exemplo, um programador pode usar o YOLO26 para detect numa
imagem e passar essa lista de objetos para um modelo de texto para gerar um relatório descritivo.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."
Aplicações no Mundo Real
A RAG está a transformar indústrias ao permitir que agentes de IA
acessem dados proprietários ou em tempo real com segurança.
-
Bases de conhecimento empresarial: as empresas utilizam o RAG para criar chatbots internos que respondem às perguntas dos funcionários
sobre políticas de RH ou documentação técnica. Ao conectar um LLM a um repositório de documentos ativo, o
sistema evita fornecer informações obsoletas sobre políticas. Para saber mais sobre implementações empresariais, consulte
a visão geralGoogle sobre o RAG no Vertex AI.
-
Apoio à decisão clínica: Na
IA na área da saúde, os sistemas RAG podem recuperar
o histórico do paciente e artigos recentes de investigação médica para auxiliar os médicos no diagnóstico, garantindo que o aconselhamento considere os
estudos clínicos mais recentes.
-
Assistentes de retalho inteligentes: as aplicações que utilizam
IA no retalho aproveitam o RAG para verificar bases de dados de inventário em tempo real
. Se um cliente perguntar a um chatbot: «Vocês têm estes ténis de corrida no tamanho 44?», o modelo
recupera os níveis de stock em tempo real antes de responder, evitando a frustração por itens esgotados.
RAG vs. Afinação
É crucial distinguir RAG de ajuste fino, pois
eles resolvem problemas diferentes.
-
RAG (Retrieval Augmented Generation): Ideal para aceder a dados dinâmicos e em constante mudança (por exemplo,
cotações de ações, notícias) ou dados privados não presentes no conjunto de treino público. O seu foco é fornecer
novas informações em tempo de execução.
-
Ajustes finos: ideais para adaptar o comportamento, estilo ou terminologia do modelo. Envolvem a atualização
dos pesos do modelo num conjunto de dados específico. Embora
os ajustes finos ajudem o modelo a aprender um padrão linguístico específico (como jargão médico), eles não garantem acesso a
fatos em tempo real. Consulte
o guia da OpenAI sobre ajustes finos vs. RAG para
estruturas de tomada de decisão.
Conceitos Relacionados
-
LangChain: Uma popular estrutura de código aberto
projetada especificamente para simplificar a criação de aplicações RAG, encadeando recuperadores e
LLMs.
-
Gráfico de conhecimento: uma forma estruturada
de representar dados que pode ser usada como fonte de recuperação, oferecendo relações mais ricas em termos contextuais do que
a simples similaridade vetorial.
-
Engenharia de prompts: A arte
de criar entradas para orientar o modelo. O RAG é essencialmente uma forma automatizada de engenharia de prompts, em que o
"prompt" é enriquecido com dados recuperados programaticamente.
-
Ultralytics : Enquanto o RAG lida com a geração de texto,
plataformas como esta são essenciais para gerenciar o
pré-processamento de dados e o treinamento dos modelos de visão
que alimentam dados visuais em pipelines RAG multimodais.