Glossar

Retrieval Augmented Generation (RAG)

Entdecke, wie Retrieval Augmented Generation (RAG) die KI-Modelle durch die Integration von zuverlässigen externen Daten in Echtzeit verbessert, um genaue, aktuelle Antworten zu erhalten.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Retrieval Augmented Generation (RAG) ist eine fortschrittliche Technik der künstlichen Intelligenz (KI), die die Qualität und Zuverlässigkeit der von Large Language Models (LLMs) generierten Antworten verbessern soll. Dabei werden die generativen Fähigkeiten eines LLMs mit einem Information Retrieval System kombiniert. Bevor das RAG-System eine Antwort generiert, ruft es zunächst relevante Informationsschnipsel aus einer vordefinierten Wissensquelle ab (z. B. aus unternehmensinternen Dokumenten, einer bestimmten Datenbank oder dem Internet). Dieser Kontext wird dann zusammen mit der ursprünglichen Benutzeranfrage an das LLM weitergeleitet, so dass das Modell genauere, aktuellere und auf Fakten basierende Antworten generieren kann, wodurch Probleme wie Halluzinationen vermieden werden. Dieser Ansatz verbessert die Standard-LLMs, da sie über ihre ursprünglichen Trainingsdaten hinaus auf externe, aktuelle Informationen zugreifen und diese nutzen können.

Wie Retrieval Augmented Generation funktioniert

Der RAG-Prozess umfasst in der Regel zwei Hauptphasen:

  1. Abrufen: Wenn ein Nutzer eine Frage stellt, sucht das System zunächst in einer bestimmten Wissensbasis nach relevanten Informationen. Diese Wissensbasis kann eine Sammlung von Dokumenten, Webseiten oder Einträgen in einer Vektordatenbank sein. Bei der Suche werden oft Techniken wie die semantische Suche eingesetzt, um Textabschnitte zu finden, die mit der Anfrage in Zusammenhang stehen und nicht nur mit dem Schlüsselwort übereinstimmen. Diese gefundenen Snippets dienen als kontextuelle Grundlage für die nächste Stufe. Dieser Prozess nutzt oft Einbettungen, um die Bedeutung der Anfrage und der Dokumente darzustellen.
  2. Generierung: Die ursprüngliche Anfrage und die abgerufenen kontextuellen Ausschnitte werden zu einem erweiterten Prompt kombiniert. Dieser erweiterte Prompt wird dann in das LLM eingespeist. Der LLM verwendet sowohl die Anfrage als auch den bereitgestellten Kontext, um eine Antwort zu generieren. So wird sichergestellt, dass die Antwort nicht nur für die Anfrage relevant ist, sondern auch durch die abgerufenen, oft aktuelleren oder spezifischeren Informationen beeinflusst wird. Die grundlegenden Arbeiten zu RAG wurden in dem Papier"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" ausführlich beschrieben.

Vorteile und Anwendungen

Die RAG bietet mehrere Vorteile gegenüber der Verwendung von Standard-LLMs allein:

  • Verbesserte Genauigkeit und Verlässlichkeit: Da die Antworten auf den abgerufenen Fakten beruhen, verringert RAG die Wahrscheinlichkeit, dass das LLM falsche oder erfundene Informationen(Halluzinationen) generiert, erheblich. Das erhöht das Vertrauen der Nutzer/innen und die Genauigkeit des Systems insgesamt.
  • Zugang zu aktuellen Informationen: LLMs werden in der Regel auf statischen Datensätzen trainiert, was bedeutet, dass sie aufgrund ihrer Wissensabgrenzung keine Kenntnis von Ereignissen oder Daten haben, die nach ihrem Training auftreten. Mit RAG können die Modelle auf die neuesten Informationen aus externen Quellen zugreifen und diese einbeziehen, ohne dass sie ständig neu trainiert werden müssen.
  • Bereichsspezifität: RAG kann so konfiguriert werden, dass es Informationen aus bestimmten, kuratierten Wissensdatenbanken abruft (z. B. unternehmensinterne Wikis, technische Dokumentation, bestimmte Datensätze). So können LLMs Antworten auf Expertenebene in speziellen Bereichen geben.
  • Erhöhte Transparenz: Da die generierte Antwort auf abgerufenen Dokumenten basiert, ist es oft möglich, die Quellen zu zitieren, um den Nutzern Transparenz und die Möglichkeit zu geben, die Informationen zu überprüfen. Dies steht im Einklang mit den Prinzipien der erklärbaren KI (XAI) und der KI-Ethik.
  • Kosteneffizienz: Die Aktualisierung der Wissensbasis für RAG ist in der Regel viel billiger und schneller als das Umlernen oder die Feinabstimmung eines großen Sprachmodells.

Beispiele aus der realen Welt:

  1. Chatbots für den Kundensupport: Ein Unternehmen kann RAG nutzen, um einen Support-Chatbot zu betreiben. Wenn ein Kunde eine Frage stellt, ruft das System relevante Informationen aus den Produkthandbüchern, FAQs und Artikeln der Wissensdatenbank des Unternehmens ab. Das LLM nutzt dann diesen Kontext, um eine präzise und hilfreiche Antwort zu generieren und kann mit Plattformen wie Zendesk integriert werden.
  2. Unternehmenssuche und Wissensmanagement: Mitarbeiter können interne Unternehmensdokumente abfragen, die in Systemen wie SharePoint oder anderen Datenbanken gespeichert sind. RAG findet relevante Abschnitte aus potenziell riesigen Dokumentenbeständen und fasst die Antworten zusammen, damit die Mitarbeiter/innen schnell Informationen finden, ohne die Dokumente manuell durchforsten zu müssen.

RAG vs. Verwandte Konzepte

Es ist hilfreich, die RAG von anderen Methoden zu unterscheiden, die zur Verbesserung der LLM-Leistung eingesetzt werden:

  • Feinabstimmung: Beim Feintuning wird ein vortrainiertes LLM an eine bestimmte Aufgabe oder Domäne angepasst, indem der Trainingsprozess auf einem kleineren, spezialisierten Datensatz fortgesetzt wird. Im Gegensatz zur RAG werden beim Fine-Tuning die internen Gewichte des Modells verändert. Die Feinabstimmung eignet sich gut, um den Stil anzupassen oder bestimmte Aufgaben zu lernen, während die RAG besser geeignet ist, um aktuelles Faktenwissen einzubeziehen. Techniken wie das Parameter-Efficient Fine-Tuning (PEFT) bieten Variationen dieses Ansatzes.
  • Prompt Engineering: Hier geht es darum, die Eingabeaufforderung für ein LLM sorgfältig zu gestalten, um die gewünschte Antwort zu erhalten. Während RAG den abgerufenen Kontext in die Eingabeaufforderung einbezieht, konzentriert sich das Prompt-Engineering darauf, die Anfrage und die Anweisungen des Nutzers manuell zu strukturieren.
  • Prompt Enrichment: Ähnlich wie RAG bei der Anreicherung des Prompts kann auch Prompt Enrichment Kontext aus der Benutzerhistorie oder dem Gesprächsverlauf hinzufügen, aber RAG konzentriert sich speziell auf den Abruf externer Sachdaten aus einer Wissensbasis, um den Generierungsprozess zu begründen.

Frameworks wie LangChain und LlamaIndex bieten Werkzeuge zum Aufbau von RAG-Pipelines und anderen komplexen LLM-Anwendungen.

RAG ist ein bedeutender Schritt auf dem Weg zu sachkundigeren und zuverlässigeren KI-Systemen und schließt die Lücke zwischen der enormen generativen Leistung von LLMs und dem Bedarf an sachlicher Genauigkeit und Zugang zu dynamischen Informationen. Die Kernidee, die Generierung mit abgerufenen Informationen zu ergänzen, ist auch auf andere Bereiche übertragbar, auch wenn sie in erster Linie für Texte verwendet wird. Im Bereich Computer Vision (CV) könnte man sich zum Beispiel vorstellen, relevante visuelle Beispiele oder Metadaten abzurufen, um die Bilderzeugung oder -analyse anzuleiten, auch wenn dies noch ein neues Forschungsgebiet ist. Plattformen wie Ultralytics HUB helfen bei der Verwaltung von Modellen und Datensätzen. Dies sind wichtige Komponenten, die in zukünftigen multimodalen RAG-Anwendungen als Wissensquellen dienen könnten, die Modelle wie Ultralytics YOLO. Die Untersuchung verfügbarer Computer-Vision-Datensätze kann Einblicke in die Art von strukturierten Informationen geben, die für solche Systeme nützlich sein könnten.

Alles lesen