Glossar

Prompt Caching

Steigere die KI-Effizienz mit Prompt Caching! Erfahre, wie du mit dieser leistungsstarken Technik Latenzzeiten reduzieren, Kosten senken und KI-Anwendungen skalieren kannst.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Prompt Caching ist eine Technik, die in der KI und im maschinellen Lernen eingesetzt wird, um die Antworten von Large Language Models (LLMs) oder anderen generativen Modellen für häufig gestellte oder ähnliche Anfragen zu speichern und wiederzuverwenden. Diese Methode verbessert die Effizienz und Geschwindigkeit von KI-Anwendungen erheblich, da sie die Notwendigkeit verringert, rechenintensive Modellinferenzen für identische oder fast identische Benutzeranfragen erneut auszuführen.

Das Prompt-Caching verstehen

Im Kern funktioniert das Prompt-Caching ähnlich wie das Web-Caching. Wenn ein Nutzer eine Eingabeaufforderung eingibt, prüft das System zunächst, ob eine Antwort für diese Aufforderung bereits im Cache vorhanden ist. Wird eine Übereinstimmung gefunden (ein "Cache-Treffer"), wird die gespeicherte Antwort sofort geliefert und der LLM-Inferenzprozess umgangen. Wird keine Übereinstimmung gefunden (ein "Cache-Miss"), wird die Eingabeaufforderung vom LLM verarbeitet, die Antwort generiert und im Cache für die spätere Verwendung gespeichert, bevor sie an den Nutzer zurückgeschickt wird.

Die Effektivität des Prompt-Caching hängt von mehreren Faktoren ab, z. B. von der Häufigkeit wiederholter oder ähnlicher Prompts, von der Größe und Effizienz des Caches und von der Strategie, mit der Treffer und Fehlversuche im Cache ermittelt werden. So kann zum Beispiel ein einfacher exakter Abgleich von Prompts verwendet werden, oder fortschrittlichere Techniken berücksichtigen semantische Ähnlichkeiten, um Prompts zu identifizieren, die konzeptionell gleich sind, auch wenn sie unterschiedlich formuliert sind.

Vorteile und Anwendungen

Promptes Caching bietet mehrere entscheidende Vorteile, vor allem in Anwendungen, die ein hohes Volumen an Benutzerinteraktionen verarbeiten oder bei denen die Reaktionszeit entscheidend ist.

  • Geringere Latenzzeit: Durch die Bereitstellung von Antworten direkt aus dem Cache können Anwendungen viel schneller auf Nutzeranfragen reagieren, was das Nutzererlebnis verbessert. Dies ist besonders wichtig für Echtzeitanwendungen wie Chatbots oder virtuelle Assistenten. Mehr über die Entwicklung von Chatbots und anderen Anwendungen erfährst du im Blogbeitrag Ultralytics über Vision AI im Crowd Management.
  • Kosteneffizienz: LLM-Schlussfolgerungen können sehr rechenintensiv sein. Durch das Caching wird die Anzahl der Inferenzaufrufe reduziert, was zu erheblichen Kosteneinsparungen führt, insbesondere bei Anwendungen mit häufigen ähnlichen Anfragen. Diese Effizienz steht im Einklang mit dem Engagement von Ultralytics, zugängliche und effiziente KI-Lösungen zu entwickeln, wie in dem Artikel "Ultralytics YOLO11 Has Arrived! Definiere neu, was in der KI möglich ist!".
  • Skalierbarkeit: Durch das Caching können KI-Anwendungen eine größere Anzahl von Anfragen bearbeiten, ohne die LLM-Infrastruktur zu belasten. Diese verbesserte Skalierbarkeit ist entscheidend für den Einsatz von KI-Lösungen in Umgebungen mit hoher Nachfrage, wie sie im Zusammenhang mit Cloud Computing für KI diskutiert werden.

Beispiele aus der realen Welt

  1. KI-Chatbots: Im Kundenservice oder bei Chatbots für allgemeine Zwecke wiederholen sich viele Nutzeranfragen oder fallen in gängige Kategorien. Prompt-Caching kann häufig gestellte Fragen sofort beantworten, z. B. "Wie sind Ihre Öffnungszeiten?" oder "Wie kann ich mein Passwort zurücksetzen?". So kann der Chatbot ein größeres Volumen an Konversationen effizient bearbeiten. Überlege dir, wie du dies mit der Sentiment-Analyse kombinieren kannst, die wir auf unserer Glossar-Seite zur Sentiment-Analyse beschrieben haben, um noch schneller und kontextbezogener zu interagieren.

  2. Semantische Suchmaschinen: Suchmaschinen, die natürliche Sprachverarbeitung (NLP) nutzen, um die Bedeutung von Suchanfragen zu verstehen, können von einer prompten Zwischenspeicherung profitieren. Wenn mehrere Nutzer/innen ähnliche Fragen zu einem Thema stellen, kann das System die Interpretation des NLP-Modells und die ersten Suchergebnisse zwischenspeichern und wiederverwenden, was die Antwortzeiten beschleunigt. Mehr über die zugrundeliegenden Technologien erfährst du in unserem Glossar zum Thema Natural Language Processing (NLP). Dies steht auch im Zusammenhang mit dem Konzept der semantischen Suche, das die Relevanz und Geschwindigkeit der Ergebnisse verbessert.

Überlegungen zur Umsetzung

Die effektive Implementierung von Prompt Caching erfordert eine sorgfältige Überlegung von Strategien zur Invalidierung des Caches. Caches müssen aktualisiert oder für ungültig erklärt werden, wenn sich die zugrunde liegenden Daten oder das Modell ändern, damit die Antworten korrekt und relevant bleiben. Wenn sich zum Beispiel die Geschäftszeiten eines Chatbots ändern, muss die zwischengespeicherte Antwort auf die Frage "Wie sind Ihre Geschäftszeiten?" aktualisiert werden. Die Strategien reichen von zeitbasierten Verfallsdaten bis hin zu komplexeren Methoden, die Datenaktualisierungen und Modellumschulungen verfolgen.

Promptes Caching ist eine wertvolle Technik zur Optimierung der Leistung und Kosteneffizienz von KI-Anwendungen, die LLMs und generative Modelle nutzen. Wenn wir ihre Prinzipien und Anwendungen verstehen, können Entwickler effizientere und benutzerfreundlichere KI-Systeme entwickeln. Die weitere Erforschung verwandter Effizienzmethoden, wie z. B. Model Pruning oder Model Quantization, kann die Leistung von KI-Lösungen weiter steigern.

Alles lesen