Retrieval Augmented Generation (RAG) est une technique avancée d'intelligence artificielle (IA) conçue pour améliorer la qualité et la fiabilité des réponses générées par les grands modèles de langage (LLM). Elle fonctionne en combinant les capacités de génération d'un LLM avec un système de recherche d'informations. Avant de générer une réponse, le système RAG récupère d'abord des bribes d'informations pertinentes à partir d'une source de connaissances prédéfinie (comme les documents internes d'une entreprise, une base de données spécifique ou le Web). Ce contexte récupéré est ensuite fourni au LLM en même temps que la requête originale de l'utilisateur, ce qui permet au modèle de générer des réponses plus précises, plus actuelles et plus fondées sur des données factuelles, atténuant ainsi les problèmes tels que les hallucinations.
Avantages et applications
RAG offre plusieurs avantages par rapport à l'utilisation de LLM standards :
- Précision accrue : en fondant les réponses sur des données externes, le RAG réduit la probabilité que le LLM génère des informations incorrectes ou fabriquées.
- Accès aux informations actuelles : Les systèmes RAG peuvent accéder à des informations actualisées stockées dans leur base de connaissances, ce qui permet de surmonter la limitation des MFR dont les connaissances sont figées au moment de leur dernière formation.
- Connaissances spécifiques au domaine : Elle permet aux LLM de fournir des réponses de niveau expert dans des domaines spécialisés en récupérant des informations dans des documents techniques ou des bases de données spécifiques.
- Transparence et confiance : Les systèmes RAG peuvent souvent citer les sources utilisées pour la génération, ce qui renforce la confiance des utilisateurs et permet de vérifier les faits, ce qui est crucial pour l'éthique de l'IA.
Exemples concrets :
- Gestion des connaissances de l'entreprise : Les entreprises utilisent RAG pour créer des chatbots internes qui peuvent répondre avec précision aux questions des employés en récupérant les informations des politiques internes, des manuels techniques et des rapports stockés sur des plateformes comme SharePoint ou des bases de connaissances dédiées.
- Automatisation du support client : Les plateformes de service client exploitent les RAG pour fournir aux agents d'assistance ou aux chatbots des informations pertinentes provenant des FAQ, de la documentation produit et des tickets d'assistance antérieurs, ce qui permet une résolution plus rapide et plus précise des requêtes des clients. Des outils comme Zendesk intègrent de telles fonctionnalités.
RAG et concepts apparentés
- RAG et LLM standard : Les LLM standard génèrent des réponses basées uniquement sur les modèles appris au cours de la formation. RAG améliore ce processus en incorporant dynamiquement des informations externes au moment de l'inférence, ce qui permet d'obtenir des résultats plus factuels et plus pertinents sur le plan contextuel.
- RAG et mise au point : Le réglage fin adapte un modèle pré-entraîné à des tâches ou domaines spécifiques en poursuivant le processus d'entraînement sur un ensemble de données plus petit et spécialisé. Bien qu'efficace, il nécessite des ressources informatiques importantes et un recyclage pour mettre à jour les connaissances. Le RAG permet de mettre à jour les connaissances en modifiant simplement la source de données externe sans réapprendre le LLM, ce qui le rend plus flexible pour les informations qui changent rapidement. Le RAG et le réglage fin peuvent également être utilisés ensemble.
- RAG et ingénierie des messages-guides : L'ingénierie des invites consiste à élaborer avec soin l'invite d'entrée afin de guider la réponse du MLD. RAG automatise le processus de fourniture d'un contexte pertinent dans l'invite en le récupérant à partir d'une source externe. Des structures telles que LangChain et LlamaIndex fournissent des outils pour construire des pipelines RAG.
RAG représente une étape importante vers la création de systèmes d'IA plus compétents et plus fiables, en comblant le fossé entre le vaste pouvoir génératif des LLM et le besoin d'exactitude factuelle. Bien qu'il soit souvent associé au texte, le concept pourrait potentiellement s'étendre à des modèles d'augmentation tels que Ultralytics YOLO en récupérant des exemples visuels pertinents ou des métadonnées, bien qu'il s'agisse encore d'un domaine de recherche émergent dans le domaine de la vision par ordinateur. Des plateformes comme Ultralytics HUB facilitent la gestion des modèles et des ensembles de données qui pourraient potentiellement servir de sources de connaissances dans les futures applications multimodales de RAG. L'exploration des ensembles de données disponibles peut donner un aperçu du type d'informations structurées qui pourraient être utiles.
Comment fonctionne la génération augmentée de récupération
Le processus RAG comprend généralement deux étapes principales :