La Generación Aumentada de Recuperación (RAG) es una técnica avanzada de inteligencia artificial (IA) diseñada para mejorar la calidad y fiabilidad de las respuestas generadas por los Grandes Modelos Lingüísticos (LLM). Funciona combinando las capacidades generativas de un LLM con un sistema de recuperación de información. Antes de generar una respuesta, el sistema RAG recupera primero fragmentos de información relevante de una fuente de conocimiento predefinida (como los documentos internos de una empresa, una base de datos específica o la web). A continuación, este contexto recuperado se proporciona al LLM junto con la consulta original del usuario, lo que permite al modelo generar respuestas más precisas, actualizadas y basadas en datos objetivos, mitigando así problemas como las alucinaciones. Este enfoque mejora los LLM estándar al permitirles acceder y utilizar información externa y actual más allá de sus datos de entrenamiento iniciales.
Cómo funciona la Generación Aumentada de Recuperación
El proceso GAR suele constar de dos fases principales:
- Recuperación: Cuando un usuario proporciona una petición o consulta, el sistema busca primero información relevante en una base de conocimientos especificada. Esta base de conocimientos puede ser una colección de documentos, páginas web o entradas en una base de datos vectorial. El mecanismo de recuperación suele utilizar técnicas como la búsqueda semántica para encontrar fragmentos de texto relacionados contextualmente con la consulta, no sólo coincidencias de palabras clave. Estos fragmentos recuperados sirven de base contextual para la siguiente etapa. Este proceso suele aprovechar las incrustaciones para representar el significado tanto de la consulta como de los documentos.
- Generación: La consulta original y los fragmentos contextuales recuperados se combinan en una consulta aumentada. Este mensaje aumentado se introduce en el LLM. El LLM utiliza tanto la consulta como el contexto proporcionado para generar una respuesta. Esto garantiza que la respuesta no sólo es relevante para la consulta, sino que también se basa en la información recuperada, a menudo más actual o específica. El trabajo fundacional sobre la RAG se detalló en el artículo"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks".
Beneficios y aplicaciones
El GAR ofrece varias ventajas sobre el uso exclusivo de los LLM estándar:
- Mayor precisión y fiabilidad: Al basar las respuestas en datos fácticos recuperados, el GAR reduce significativamente la probabilidad de que el LLM genere información incorrecta o fabricada(alucinaciones). Esto aumenta la confianza del usuario y la precisión general del sistema.
- Acceso a la información actual: Los LLM suelen entrenarse con conjuntos de datos estáticos, lo que significa que su corte de conocimientos les impide conocer los acontecimientos o datos que surgen después de su entrenamiento. La GAR permite a los modelos acceder e incorporar la información más reciente de fuentes externas sin necesidad de un reentrenamiento constante.
- Especificidad de dominio: RAG puede configurarse para recuperar información de bases de conocimiento específicas y curadas (por ejemplo, wikis internos de la empresa, documentación técnica, conjuntos de datos específicos). Esto permite a los LLM proporcionar respuestas de nivel experto dentro de dominios especializados.
- Mayor transparencia: Dado que la respuesta generada se basa en documentos recuperados, a menudo es posible citar las fuentes, proporcionando a los usuarios transparencia y la posibilidad de verificar la información. Esto se alinea con los principios de la IA explicable (XAI) y la ética de la IA.
- Rentabilidad: Actualizar la base de conocimientos para la GAR suele ser mucho más barato y rápido que volver a entrenar o afinar un gran modelo lingüístico.
Ejemplos del mundo real:
- Chatbots de Atención al Cliente: Una empresa puede utilizar RAG para impulsar un chatbot de asistencia. Cuando un cliente hace una pregunta, el sistema recupera información relevante de los manuales de producto, las FAQ y los artículos de la base de conocimientos de la empresa. A continuación, el RAG utiliza este contexto para generar una respuesta precisa y útil, integrándose potencialmente con plataformas como Zendesk.
- Búsqueda empresarial y gestión del conocimiento: Los empleados pueden consultar documentos internos de la empresa almacenados en sistemas como SharePoint u otras bases de datos. RAG recupera las secciones pertinentes de depósitos de documentos potencialmente vastos y sintetiza las respuestas, ayudando a los empleados a encontrar información rápidamente sin tener que rebuscar manualmente entre los documentos.
RAG vs. Conceptos relacionados
Es útil distinguir el GAR de otros métodos utilizados para mejorar el rendimiento en el LLM:
- Ajuste fino: El ajuste fino adapta un LLM preentrenado a una tarea o dominio específico continuando el proceso de entrenamiento en un conjunto de datos más pequeño y especializado. A diferencia de la GAR, el ajuste fino modifica los pesos internos del modelo. El ajuste fino es bueno para adaptar el estilo o aprender tareas específicas, mientras que la RAG es mejor para incorporar conocimientos factuales y actualizados. Técnicas como el Ajuste Fino Eficaz de Parámetros (PEFT ) ofrecen variaciones de este enfoque.
- Ingeniería de instrucciones: Consiste en elaborar cuidadosamente la instrucción de entrada que se da a un LLM para obtener la respuesta deseada. Mientras que el GAR incorpora el contexto recuperado a la instrucción, la ingeniería de instrucciones se centra en estructurar manualmente la consulta y las instrucciones del usuario.
- Enriquecimiento de las instrucciones: De forma similar a la GAR en el aumento de la indicación, el enriquecimiento de la indicación puede añadir contexto del historial del usuario o del flujo de la conversación, pero la GAR se centra específicamente en recuperar datos fácticos externos de una base de conocimientos para fundamentar el proceso de generación.
Frameworks como LangChain y LlamaIndex proporcionan herramientas para construir pipelines RAG y otras aplicaciones LLM complejas.
La RAG representa un paso importante hacia la creación de sistemas de IA más informados y fiables, salvando la distancia entre el vasto poder generativo de los LLM y la necesidad de precisión factual y acceso a información dinámica. Aunque se utiliza principalmente con texto, la idea central de aumentar la generación con información recuperada es conceptualmente aplicable a otros dominios. Por ejemplo, en la visión por ordenador (VC), se podría imaginar la recuperación de ejemplos visuales o metadatos relevantes para guiar la generación o el análisis de imágenes, aunque se trata todavía de un área de investigación emergente. Plataformas como Ultralytics HUB ayudan a gestionar modelos y conjuntos de datos, que son componentes cruciales que podrían servir como fuentes de conocimiento en futuras aplicaciones RAG multimodales que impliquen modelos como Ultralytics YOLO. Explorar los conjuntos de datos de visión por ordenador disponibles puede aportar ideas sobre el tipo de información estructurada que podría ser útil para tales sistemas.