Glossar

Retrieval Augmented Generation (RAG)

Entdecken Sie, wie Retrieval Augmented Generation (RAG) die KI-Modelle durch die Integration zuverlässiger externer Daten in Echtzeit verbessert, um präzise und aktuelle Antworten zu erhalten.

Retrieval-Augmented Generation (RAG) ist ein fortschrittliches KI-Framework, das die Qualität, Genauigkeit und Relevanz der von Large Language Models (LLMs) generierten Antworten verbessern soll. Es funktioniert, indem ein generatives Modell mit einer externen, aktuellen Wissensbasis verbunden wird. Auf diese Weise kann das Modell relevante Informationen "abrufen", bevor es eine Antwort generiert, wodurch seine Ausgabe effektiv auf überprüfbaren Fakten beruht und die Wahrscheinlichkeit von Halluzinationen oder veralteten Antworten verringert wird. RAG macht LLMs zuverlässiger für wissensintensive Aufgaben, indem es ihnen Zugang zu spezialisierten oder geschützten Informationen verschafft, auf die sie nicht trainiert wurden.

Wie die abruferweiterte Generierung funktioniert

Der RAG-Prozess kann in zwei Hauptphasen unterteilt werden: Retrieval und Generierung. Dieser zweistufige Ansatz kombiniert die Stärken von Information Retrieval Systemen und generativen Modellen.

  1. Abruf: Wenn ein Benutzer eine Eingabeaufforderung macht oder eine Frage stellt, verwendet das RAG-System zunächst die Eingabeaufforderung, um eine Wissensquelle nach relevanten Informationen zu durchsuchen. Diese Quelle ist typischerweise eine Vektordatenbank, die Einbettungen von Dokumenten, Artikeln oder anderen Daten enthält. Die Retriever-Komponente identifiziert die relevantesten Text- oder Datenschnipsel auf der Grundlage der Benutzeranfrage und zieht sie heraus. Ein optionaler, aber leistungsstarker Schritt ist die Verwendung eines Rerankers zur Verfeinerung dieser abgerufenen Ergebnisse, um sicherzustellen, dass nur die kontextuell wichtigsten Informationen weitergegeben werden.
  2. Erweiterte Generierung: Die abgerufenen Informationen werden dann mit der ursprünglichen Benutzeraufforderung kombiniert. Diese neue, angereicherte Eingabeaufforderung wird in das generative KI-Modell (das LLM) eingespeist. Das Modell verwendet diesen zusätzlichen Kontext, um eine umfassende, genaue und relevante Antwort zu formulieren. Frameworks wie LangChain und LlamaIndex werden häufig zur Erstellung und Verwaltung dieser komplexen RAG-Pipelines verwendet.

Anwendungen und Beispiele

RAG ist besonders nützlich in Szenarien, die sachliche Genauigkeit und Zugang zu dynamischen oder speziellen Daten erfordern.

  • Fortgeschrittene Systeme zur Beantwortung von Fragen: Ein Chatbot für den Kundensupport kann mithilfe von RAG auf die gesamte Wissensdatenbank eines Unternehmens mit Produkthandbüchern, Anleitungen zur Fehlerbehebung und Grundsatzdokumenten zugreifen. Wenn ein Kunde fragt: "Wie lauten die Garantierichtlinien für mein Produkt?", ruft das System das neueste Garantiedokument ab und verwendet es, um eine präzise, aktuelle Antwort zu geben, was eine erhebliche Verbesserung gegenüber generischen Antworten darstellt.
  • Erstellung von Inhalten und Forschung: Ein Finanzanalyst könnte ein RAG-gestütztes Tool verwenden, um eine Marktübersicht zu erstellen. Das Tool könnte die neuesten Finanzberichte, Marktnachrichten und Aktienkursdaten aus zuverlässigen Quellen wie Bloomberg oder Reuters abrufen. Das LLM fasst diese Informationen dann zu einem kohärenten Bericht zusammen, komplett mit Zitaten, was den Rechercheprozess erheblich beschleunigt.

RAG vs. Verwandte Konzepte

Es ist hilfreich, die RAG von anderen Methoden zu unterscheiden, die zur Verbesserung der LLM-Leistung eingesetzt werden:

  • Feinabstimmung: Bei der Feinabstimmung wird ein zuvor trainiertes Modell durch weiteres Training auf einem kleineren, spezialisierten Datensatz angepasst, wodurch die internen Gewichte des Modells verändert werden. Im Gegensatz zu RAG werden bei der Inferenz keine externen Daten herangezogen. Die Feinabstimmung ist ideal, um einem Modell einen neuen Stil oder eine neue Fähigkeit beizubringen, während die RAG besser geeignet ist, um Faktenwissen einzubeziehen. Diese Ansätze können sich auch gegenseitig ergänzen.
  • Prompt-Engineering: Dies ist der manuelle Prozess der sorgfältigen Gestaltung von Prompts, um die gewünschte Ausgabe von einem LLM zu erhalten. RAG automatisiert einen Teil dieses Prozesses, indem es den Prompt programmatisch mit den abgerufenen Daten ergänzt ("augmentiert"), anstatt sich darauf zu verlassen, dass ein Mensch manuell den gesamten Kontext liefert.
  • Promptes Enrichment: Ähnlich wie bei RAG ist Prompt Enrichment ein weiter gefasster Begriff. Er kann das Hinzufügen von Kontext aus der Benutzerhistorie oder dem Gesprächsverlauf beinhalten. RAG ist eine spezielle Art der Anreicherung, die sich darauf konzentriert, faktische Informationen aus einer externen Wissensbasis abzurufen, um die Antwort des Modells zu begründen.

RAG in der Computer Vision

Während RAG vor allem in der natürlichen Sprachverarbeitung (NLP) eingesetzt wird, wird sein Kernkonzept auch für Aufgaben der Computer Vision (CV) erforscht. So könnte ein System beispielsweise relevante visuelle Informationen abrufen, um die Bilderzeugung oder -analyse anzuleiten. Dazu könnte das Auffinden ähnlicher Bilder aus einem großen Datensatz gehören, um die Leistung eines Objekterkennungsmodells wie Ultralytics YOLO zu verbessern. Die Verwaltung dieser komplexen Modelle und Datensätze wird durch Plattformen wie Ultralytics HUB vereinfacht, die als Grundlage für künftige multimodale Modellanwendungen dienen könnten, die RAG verwenden. Eine verwandte Implementierung können Sie in unserem Blog über die Verbesserung der KI mit RAG und Computer Vision erkunden.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert