术语表

大型语言模型 (LLM)

了解大型语言模型 (LLM) 如何利用先进的 NLP 彻底改变人工智能,为聊天机器人、内容创建等提供动力。了解关键概念!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

大型语言模型(LLM)代表了人工智能(AI)领域,尤其是自然语言处理(NLP)领域的重大进步。这些模型的特点是规模巨大,通常包含数十亿个参数,并在由文本和代码组成的庞大数据集上进行训练。这种广泛的训练使 LLMs 能够理解上下文、生成连贯的类人文本、翻译语言、回答问题,并熟练地执行各种基于语言的任务。它们是深度学习(DL)模型的一种特殊类型,推动着众多应用领域的创新。

定义

大型语言模型从根本上说是一个复杂的神经网络 (NN),通常基于Transformer架构。大型语言模型中的 "大型 "指的是大量的参数,即在训练过程中调整的变量,其范围可从数十亿到数万亿不等。参数越多,模型从数据中学习到的模式就越复杂。LLM 通过对从互联网、书籍和其他来源收集的海量文本库进行无监督学习来学习这些模式。这一过程有助于它们掌握语法、事实、推理能力,甚至数据中存在的偏差。核心能力包括预测句子中的后续单词,这为文本生成问题解答等任务奠定了基础。著名的例子包括OpenAIGPT 系列(如GPT-4)、Meta AI的 Llama 模型(如Llama 3)、Google DeepMind 的 Gemini 和Anthropic的 Claude。 Anthropic.

应用

LLM 的多功能性使其可以应用于不同的领域。下面是两个具体的例子:

  • 对话式人工智能:LLM 支持复杂的聊天机器人和虚拟助手,如 ChatGPT和Google 助理等先进的聊天机器人和虚拟助理,与老式的基于规则的系统相比,它们能实现更自然、更能感知上下文的互动。它们可以处理客户服务咨询、提供信息并参与复杂的对话。
  • 内容创建和摘要:企业和个人使用 LLM 生成营销文案、撰写文章、创建代码片段以及总结冗长的文档(文本总结)。Microsoft Copilot等工具集成了 LLM,可帮助用户完成各种写作和编码任务。

关键概念

了解 LLM 需要熟悉几个相关概念:

  • 基础模型:LLM 被认为是基础模型的一种,这意味着它们是在广泛数据基础上训练出来的大型模型,可以针对各种下游任务进行调整(微调)。
  • 注意机制:注意机制对 Transformer 架构至关重要,它允许模型在生成输出时权衡输入序列中不同单词的重要性,从而更好地处理长距离依赖关系和上下文。介绍这一点的开创性论文是《注意力就是你所需要的一切》("Attention Is All You Need")。
  • 及时工程:这是一种设计有效输入(提示)的做法,以引导 LLM 生成所需的输出。提示的质量对模型的响应有很大影响。
  • 标记化:LLM 在处理文本时,会将其分解成称为标记(单词、子单词或字符)的较小单位。文本标记化的方式会影响模型的性能和计算成本。

虽然 LLM 擅长语言任务,但它们不同于主要为计算机视觉(CV)设计的模型,例如用于物体检测的Ultralytics YOLO 模型。然而,多模态模型视觉语言模型的兴起正在弥合这一差距,将语言理解与视觉处理相结合。Ultralytics HUB等平台有助于训练和部署各种人工智能模型,包括用于视觉任务的模型。

阅读全部