La Generación Aumentada de Recuperación (RAG) es una técnica avanzada de inteligencia artificial (IA) diseñada para mejorar la calidad y fiabilidad de las respuestas generadas por los Grandes Modelos Lingüísticos (LLM). Funciona combinando las capacidades generativas de un LLM con un sistema de recuperación de información. Antes de generar una respuesta, el sistema RAG primero recupera fragmentos de información relevante de una fuente de conocimiento predefinida (como los documentos internos de una empresa, una base de datos específica o la web). A continuación, este contexto recuperado se proporciona al LLM junto con la consulta original del usuario, lo que permite al modelo generar respuestas más precisas, actualizadas y basadas en datos objetivos, mitigando así problemas como las alucinaciones.
Cómo funciona la Generación Aumentada de Recuperación
El proceso GAR suele constar de dos fases principales:
- Recuperación: Cuando un usuario proporciona una petición o consulta, el sistema utiliza primero esta entrada para buscar en un gran corpus de documentos o en una base de datos vectorial. El objetivo de esta búsqueda es encontrar segmentos de texto o documentos que contengan información relevante para la consulta. Aquí se suelen emplear técnicas como la búsqueda semántica para encontrar información contextualmente similar, no sólo coincidencias de palabras clave.
- Generación: La información relevante recuperada en la primera fase se combina con la petición original del usuario. Esta consulta aumentada, ahora rica en contexto específico, se introduce en el LLM. El LLM utiliza tanto la consulta original como el contexto proporcionado para sintetizar una respuesta completa y basada en hechos. Este proceso se introdujo formalmente en investigaciones como el artículo sobre la Generación Aumentada de Recuperación para Tareas de PNL Intensivas en Conocimiento.
Beneficios y aplicaciones
El GAR ofrece varias ventajas sobre el uso exclusivo de los LLM estándar:
- Mayor precisión: Al basar las respuestas en datos externos, el GAR reduce la probabilidad de que el LLM genere información incorrecta o inventada.
- Acceso a información actualizada: Los sistemas GAR pueden acceder a información actualizada almacenada en su base de conocimientos, superando la limitación de los LLM, cuyos conocimientos están congelados en el momento de su última formación.
- Conocimientos específicos de dominio: Permite a los LLM proporcionar respuestas de nivel experto en dominios especializados recuperando información de documentos técnicos o bases de datos específicos.
- Transparencia y confianza: Los sistemas GAR a menudo pueden citar las fuentes utilizadas para la generación, lo que aumenta la confianza de los usuarios y permite comprobar los hechos, lo que es crucial para la ética de la IA.
Ejemplos del mundo real:
- Gestión del Conocimiento Empresarial: Las empresas utilizan RAG para crear chatbots internos que puedan responder con precisión a las preguntas de los empleados recuperando información de políticas internas, manuales técnicos e informes almacenados en plataformas como SharePoint o bases de conocimiento dedicadas.
- Automatización de la atención al cliente: Las plataformas de atención al cliente aprovechan la GAR para proporcionar a los agentes de soporte o a los chatbots información relevante de preguntas frecuentes, documentación de productos y tickets de soporte anteriores, lo que permite una resolución más rápida y precisa de las consultas de los clientes. Herramientas como Zendesk están incorporando estas funciones.
RAG vs. Conceptos relacionados
- RAG frente a LLM estándar: Los LLM estándar generan respuestas basadas únicamente en patrones aprendidos durante el entrenamiento. El GAR lo mejora incorporando dinámicamente información externa en el momento de la inferencia, lo que da lugar a resultados más fácticos y contextualmente relevantes.
- RAG vs. Ajuste fino: El ajuste fino adapta un modelo preentrenado a tareas o dominios específicos continuando el proceso de entrenamiento en un conjunto de datos más pequeño y especializado. Aunque es eficaz, requiere importantes recursos informáticos y reentrenamiento para actualizar los conocimientos. La RAG permite actualizar los conocimientos simplemente modificando la fuente de datos externa sin volver a entrenar el LLM, lo que lo hace más flexible para la información que cambia rápidamente. La RAG y el reentrenamiento también pueden utilizarse juntos.
- RAG vs. Ingeniería de instrucciones: La ingeniería de instrucciones implica elaborar cuidadosamente la instrucción de entrada para guiar la respuesta del LLM. La RAG automatiza el proceso de proporcionar el contexto relevante dentro de la instrucción recuperándolo de una fuente externa. Frameworks como LangChain y LlamaIndex proporcionan herramientas para construir canalizaciones RAG.
La RAG representa un paso importante hacia la creación de sistemas de IA más informados y fiables, salvando la distancia entre el vasto poder generativo de los LLM y la necesidad de precisión factual. Aunque a menudo se asocia con el texto, el concepto podría extenderse potencialmente al aumento de modelos como Ultralytics YOLO mediante la recuperación de ejemplos visuales o metadatos relevantes, aunque ésta es todavía un área de investigación emergente en visión por ordenador. Plataformas como Ultralytics HUB facilitan la gestión de modelos y conjuntos de datos que podrían servir como fuentes de conocimiento en futuras aplicaciones RAG multimodales. Explorar los conjuntos de datos disponibles puede proporcionar ideas sobre el tipo de información estructurada que podría ser útil.