术语表

提示缓存

利用及时缓存提高人工智能效率!了解如何利用这一强大技术减少延迟、降低成本并扩展人工智能应用程序。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

提示缓存是人工智能和机器学习中使用的一种技术,用于存储和重复使用大型语言模型(LLM)或其他生成模型对频繁询问或类似提示的响应。这种方法减少了针对相同或几乎相同的用户请求重新运行计算密集型模型推论的需要,从而大大提高了人工智能应用的效率和速度。

了解提示缓存

提示缓存的核心操作类似于网络缓存。当用户输入一个提示时,系统会首先检查缓存中是否已经存在针对该提示的响应。如果发现匹配("缓存命中"),则会绕过 LLM 推理过程,立即发送存储的响应。如果没有找到匹配项("缓存未命中"),则由 LLM 处理提示,生成响应,然后存储在缓存中,以备将来使用,然后再发送给用户。

提示缓存的有效性取决于多个因素,包括重复或类似提示的频率、缓存的大小和效率,以及用于确定缓存命中和未命中的策略。例如,可以使用简单的提示精确匹配,或者更先进的技术可以考虑语义相似性,以识别即使措辞不同但概念相同的提示。

优势和应用

提示缓存具有几个关键优势,特别是在处理大量用户交互或响应时间至关重要的应用程序中。

  • 减少延迟:通过直接从缓存提供响应,应用程序可以更快地响应用户查询,从而增强用户体验。这在聊天机器人或虚拟助手等实时应用中尤为重要。有关构建聊天机器人和其他应用的更多信息,请参阅Ultralytics 博文 "人群管理中的视觉人工智能"。
  • 成本效益:LLM 推断的计算成本很高。缓存减少了推理调用的次数,从而大大节省了成本,尤其是对于经常有类似请求的应用而言。Ultralytics正如文章 "Ultralytics YOLO11 来了!重新定义人工智能的可能性!"一文强调的。
  • 可扩展性:缓存使人工智能应用能够处理更多请求,而不会增加 LLM 基础设施的负载。这种可扩展性的提高对于在高需求环境中部署人工智能解决方案至关重要,例如在人工智能云计算背景下讨论的那些环境。

真实世界的例子

  1. 人工智能聊天机器人:在客户服务或通用聊天机器人中,许多用户的询问都是重复性的或属于常见类别。提示缓存可以即时回答常见问题,如 "你们的营业时间是什么时候?"或 "如何重置密码?"。这样聊天机器人就能有效处理更多的对话。考虑如何将其与情感分析(如我们的情感分析词汇表页面中讨论的那样)相结合,以实现更灵敏、更能感知上下文的互动。

  2. 语义搜索引擎:使用自然语言处理(NLP)来理解搜索查询背后含义的搜索引擎可以从及时缓存中获益。如果多个用户就某个主题提出类似的问题,系统可以缓存并重复使用 NLP 模型的解释和初始搜索结果,从而加快响应速度。在我们的自然语言处理 (NLP) 词汇表页面了解更多有关底层技术的信息。这也与语义搜索的概念有关,可提高搜索结果的相关性和速度。

实施考虑因素

有效实施及时缓存需要仔细考虑缓存失效策略。当底层数据或模型发生变化时,缓存需要更新或失效,以确保响应的准确性和相关性。例如,如果聊天机器人的营业时间发生变化,则必须更新 "您的营业时间是什么?"的缓存响应。策略包括基于时间的失效,以及跟踪数据更新和模型再训练的更复杂方法。

提示缓存是一种有价值的技术,可优化使用 LLM 和生成模型的人工智能应用的性能和成本效益。通过了解其原理和应用,开发人员可以构建更高效、用户友好的人工智能系统。进一步探索相关的效率方法,如模型剪枝模型量化,可以进一步提高人工智能解决方案的性能。

阅读全部