用語集

プロンプト・キャッシング

プロンプト・キャッシングでAIの効率を高めよう!この強力なテクニックを使って、レイテンシーを減らし、コストを削減し、AIアプリを拡張する方法を学びましょう。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

プロンプト・キャッシングは、AIや機械学習において、頻繁に質問されるプロンプトや類似のプロンプトに対する大規模言語モデル(Large Language Models:LLM)やその他の生成モデルからの応答を保存し、再利用するために使用される手法である。この方法は、同一またはほぼ同一のユーザー要求に対して計算集約的なモデル推論を再実行する必要性を低減することにより、AIアプリケーションの効率と速度を大幅に向上させる。

プロンプト・キャッシングを理解する

プロンプトのキャッシュは、その中核ではWebキャッシュと同様に動作する。ユーザーがプロンプトを入力すると、システムはまず、そのプロンプトに対する応答がすでにキャッシュに存在するかどうかをチェックする。一致するものが見つかった場合(「キャッシュヒット」)、LLM推論プロセスをバイパスして、保存されている応答が即座に配信される。一致するものが見つからない場合(「キャッシュ・ミス」)、プロンプトはLLMによって処理され、応答が生成され、将来の使用のためにキャッシュに格納された後、ユーザーに送り返される。

プロンプトのキャッシュの有効性は、繰り返されるプロンプトや類似したプロンプトの頻度、キャッシュのサイズと効率、キャッシュのヒットとミスを決定するために使用される戦略など、いくつかの要因に左右される。たとえば、プロンプトの単純な完全一致を使用することもできるし、より高度な技法では、語句が異なっていても概念的に同じプロンプトを識別するために、意味の類似性を考慮することもできる。

利点と応用

プロンプト・キャッシングは、特に大量のユーザー・インタラクションを処理するアプリケーションや、応答時間が重要なアプリケーションにおいて、いくつかの重要な利点を提供します。

  • 待ち時間の短縮:キャッシュから直接レスポンスを提供することで、アプリケーションはユーザーのクエリに対してより速く応答できるようになり、ユーザーエクスペリエンスが向上します。これは、チャットボットやバーチャルアシスタントなどのリアルタイムアプリケーションでは特に重要です。チャットボットやその他のアプリケーションの構築については、Ultralytics のブログ記事「Vision AI in Crowd Management」をご覧ください。
  • コスト効率:LLM推論は計算コストがかかる。キャッシングは推論の呼び出し回数を減らし、特に類似の要求が頻繁にあるアプリケーションでは、大幅なコスト削減につながる。Ultralyticsこの効率性は、「Ultralytics YOLO11 Has Arrived!AIで可能なことを再定義しよう!」。
  • スケーラビリティ:キャッシングにより、AIアプリケーションは、LLMインフラストラクチャの負荷を増加させることなく、より多くのリクエストを処理できるようになる。このスケーラビリティの向上は、AI向けクラウド・コンピューティングの文脈で議論されているような、需要の高い環境でAIソリューションを展開するために不可欠です。

実例

  1. AIチャットボット:カスタマーサービスや汎用チャットボットでは、ユーザーからの問い合わせの多くは繰り返しであったり、よくあるカテゴリーに分類されます。プロンプト・キャッシングは、"営業時間を教えてください "や "パスワードのリセット方法を教えてください "など、よくある質問に即座に答えることができます。これにより、チャットボットは大量の会話を効率的に処理できるようになります。センチメント分析の用語集ページで説明したように、これをセンチメント分析と統合することで、さらに応答性が高く、コンテキストを意識したインタラクションを実現する方法を考えてみましょう。

  2. セマンティック検索エンジン:検索クエリの背後にある意味を理解するために自然言語処理(NLP)を使用する検索エンジンは、プロンプトキャッシングの恩恵を受けることができます。複数のユーザーがトピックについて同じような質問をした場合、システムはNLPモデルの解釈と最初の検索結果をキャッシュして再利用し、応答時間を短縮することができます。当社の自然言語処理(NLP)用語集ページで、基礎となるテクノロジーについて詳しくご覧ください。これはまた、結果の関連性と速度を向上させ、セマンティック検索の概念に関連しています。

実施にあたっての考慮事項

プロンプトキャッシングを効果的に実装するには、キャッシュの無効化戦略を慎重に検討する必要があります。キャッシュは、レスポンスが正確で適切であることを保証するために、基礎となるデータやモデルが変更されたときに更新または無効にする必要があります。例えば、チャットボットの営業時間が変更された場合、"営業時間は?"に対するキャッシュされたレスポンスは更新されなければなりません。時間ベースの期限切れから、データの更新やモデルの再トレーニングを追跡する複雑な方法まで、さまざまな戦略があります。

プロンプト・キャッシングは、LLMや生成モデルを利用するAIアプリケーションのパフォーマンスと費用対効果を最適化するための貴重な手法である。その原理と応用を理解することで、開発者はより効率的でユーザーフレンドリーなAIシステムを構築することができる。モデルの刈り込みや モデルの量子化など、関連する効率化手法をさらに探求することで、AIソリューションの性能をさらに高めることができる。

すべて読む