Generación Aumentada de Recuperación (RAG)
Descubra cómo la generación aumentada por recuperación (RAG) optimiza los modelos de lenguaje grande (LLM) con datos en tiempo real. Aprenda a crear canalizaciones multimodales utilizando Ultralytics para RAG visual.
La generación aumentada por recuperación (RAG) es una técnica avanzada en el campo de la inteligencia artificial que optimiza
la salida de un
modelo de lenguaje grande (LLM) haciendo referencia a
una base de conocimientos autorizada fuera de sus datos de entrenamiento. Los modelos generativos tradicionales se basan únicamente en información estática
aprendida durante su entrenamiento inicial, lo que puede dar lugar a respuestas obsoletas o a inexactitudes seguras conocidas
como alucinaciones. La RAG salva esta brecha
recuperando información relevante y actualizada de fuentes externas, como bases de datos de empresas, noticias de actualidad o
manuales técnicos, y alimentando al modelo con ella como contexto antes de generar una respuesta. Este proceso garantiza que los
resultados de la IA no solo sean coherentes desde el punto de vista lingüístico, sino también precisos desde el punto de vista factual y basados en datos específicos.
Cómo funcionan los sistemas RAG
La arquitectura de un sistema RAG suele implicar dos fases principales: recuperación y generación. Este flujo de trabajo permite a
los desarrolladores mantener un modelo base sin
la costosa necesidad de volver a entrenarlo con frecuencia.
-
Recuperación: Cuando un usuario envía una consulta, el sistema primero realiza una
búsqueda semántica en un sistema de almacenamiento especializado
denominado base de datos vectorial. Esta base de datos
contiene datos que se han convertido en representaciones numéricas conocidas como
incrustaciones, lo que permite al sistema encontrar información conceptualmente
similar en lugar de limitarse a buscar palabras clave coincidentes.
-
Generación: Los documentos o fragmentos de datos relevantes encontrados durante la recuperación se combinan con la
pregunta original del usuario. A continuación, esta indicación enriquecida se envía al modelo generativo. El modelo utiliza este contexto proporcionado
para sintetizar una respuesta, asegurando que esta se base en los datos recuperados. Para profundizar en la
mecánica,
IBM ofrece una guía completa sobre los flujos de trabajo de RAG.
RAG visual: integración de la visión artificial
Mientras que el RAG se basa tradicionalmente en texto, el auge del
aprendizaje multimodal ha introducido el
«RAG visual». En este escenario,
los modelos de visión artificial actúan como mecanismo de recuperación
. Analizan imágenes o secuencias de vídeo para extraer datos textuales estructurados, como nombres de objetos, recuentos o
actividades, que luego se introducen en un LLM para responder a preguntas sobre la escena visual.
Por ejemplo, un desarrollador puede utilizar YOLO26 para detect en
una imagen y pasar esa lista de objetos a un modelo de texto para generar un informe descriptivo.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."
Aplicaciones en el mundo real
RAG está transformando las industrias al permitir que los agentes de IA
accedan a datos privados o en tiempo real de forma segura.
-
Bases de conocimiento empresarial: Las empresas utilizan RAG para crear chatbots internos que responden a las preguntas de los empleados
sobre políticas de RR. HH. o documentación técnica. Al conectar un LLM a un repositorio de documentos en tiempo real, el
sistema evita proporcionar información obsoleta sobre políticas. Para obtener más información sobre las implementaciones empresariales, consulte la
descripción general de RAG en Vertex AIGoogle .
-
Apoyo a la toma de decisiones clínicas: En
el ámbito de la IA aplicada a la sanidad, los sistemas RAG pueden recuperar
el historial del paciente y los últimos artículos de investigación médica para ayudar a los médicos en el diagnóstico, garantizando que el consejo tenga en cuenta los
últimos estudios clínicos.
-
Asistentes inteligentes para tiendas: Las aplicaciones que utilizan
IA en el sector minorista aprovechan RAG para consultar bases de datos de inventario en tiempo real
. Si un cliente pregunta a un chatbot: «¿Tienen estas zapatillas de correr en la talla 10?», el modelo
recupera los niveles de existencias en tiempo real antes de responder, lo que evita la frustración por los artículos agotados.
RAG vs. Ajuste fino
Es crucial distinguir el RAG del ajuste fino, ya que
resuelven problemas diferentes.
-
RAG (Retrieval Augmented Generation): Ideal para acceder a datos dinámicos que cambian con frecuencia (por ejemplo,
cotizaciones bursátiles, noticias) o datos privados que no están presentes en el conjunto de entrenamiento público. Se centra en proporcionar
información nueva en tiempo de ejecución.
-
Ajuste fino: ideal para adaptar el comportamiento, el estilo o la terminología del modelo. Implica actualizar
los pesos del modelo en un conjunto de datos específico. Si bien
el ajuste fino ayuda al modelo a aprender un patrón lingüístico específico (como la jerga médica), no garantiza el acceso a
datos en tiempo real. Consulte
la guía de OpenAI sobre ajuste fino frente a RAG para
marcos de toma de decisiones.
Conceptos Relacionados
-
LangChain: Un popular marco de código abierto
diseñado específicamente para simplificar la creación de aplicaciones RAG mediante la concatenación de recuperadores y
LLM.
-
Gráfico de conocimiento: Una
forma estructurada de representar datos que se puede utilizar como fuente de recuperación, ofreciendo relaciones más ricas en contexto que
la simple similitud vectorial.
-
Ingeniería de indicaciones: El arte
de crear entradas para guiar el modelo. RAG es esencialmente una forma automatizada de ingeniería de indicaciones en la que la
«indicación» se enriquece con datos recuperados mediante programación.
-
Ultralytics : Mientras que RAG se encarga de la
generación de texto, plataformas como esta son esenciales para gestionar el
preprocesamiento de datos y el entrenamiento de los modelos de visión
que alimentan los datos visuales a las canalizaciones multimodales RAG.