大型语言模型 (LLM)：它们如何工作 -Ultralytics

大型语言模型（LLM）是一种先进的生成式人工智能系统，能够理解和生成类似人类的文本。这些模型可以识别和解释人类语言，并在从互联网收集的数百万千兆字节的文本数据基础上进行训练。由 LLM 驱动的创新技术包括 ChatGPT等由 LLM 驱动的创新已家喻户晓，使生成式人工智能更容易为每个人所接受。

随着全球 LLM 市场预计到 2034 年将达到 856 亿美元，许多组织正专注于在其各个业务职能部门中采用 LLM。

在本文中，我们将探讨大型语言模型的工作原理及其在各个行业的应用。让我们开始吧！

__wf_reserved_inherit — 图 1. LLM 使用深度学习算法来生成和理解文本。

大型语言模型的演变

大型语言模型的历史跨越了几十年，充满了研究突破和引人入胜的发现。在深入探讨核心概念之前，让我们先来了解一些最重要的里程碑。

以下是 LLM 开发中关键里程碑的快速一览：

1960 年代：Joseph Weizenbaum 创建了 ELIZA，这是最早的聊天机器人之一。它使用模式匹配，这是一种系统检测用户输入中的关键字并做出相应响应的方法，从而模拟基本的对话。

1990年代： 开发了循环神经网络 (RNN)来处理文本或语音等序列数据。它们可以记住过去的输入，但在处理长序列时遇到了困难，从而促使了长短期记忆 (LSTM)网络的创建来解决这个问题。

2014年： 引入了门控循环单元 (GRU)，作为 LSTM 的更简单、更快速的版本。大约在同一时间，开发了注意力机制，使 AI 能够专注于序列中最重要的部分，从而更好地理解。

2017:Transformer推出了一种利用多头注意力和并行处理来处理文本的新方法。与 RNN 不同，它们可以一次性分析整个序列，从而更快、更好地理解上下文。

自 2018 年以来，BERT（来自变换器的双向编码器表示）和GPT（生成式预训练Transformer）等模型利用变换器引入了双向处理，即信息同时向前和向后流动。这些进步大大提高了此类模型理解和生成自然语言的能力。

LLM 是如何工作的？

要了解 LLM（大型语言模型）的工作原理，首先要明确 LLM 到底是什么。

LLM 是一种基础模型 - 在海量数据集上训练的通用 AI 系统。这些模型可以针对特定任务进行微调，并且旨在以模仿人类写作的方式处理和生成文本。LLM 擅长从最少的提示中进行预测，并广泛用于生成式 AI 中，以根据人类输入创建内容。它们可以推断上下文，提供连贯且相关的响应，翻译语言，总结文本，回答问题，协助创意写作，甚至生成或调试代码。

LLM 非常庞大，并且使用数十亿个参数运行。参数是模型在训练期间学习的内部权重，使其能够根据收到的输入生成输出。通常，具有更多参数的模型往往会提供更好的性能。

以下是一些流行的 LLM 示例：

GPT-4o：GPT-4o 于 2024 年 5 月发布，是 OpenAI 最新的多模态模型。它可以处理文本、图像、音频和视频输入。
‍
克劳德 3.5:Claude 3.5 由Anthropic 于 2024 年 6 月推出，它建立在 Claude 3 系列的基础上，提供了更好的自然语言处理和问题解决能力。
‍
Llama 3：Meta 于 2024 年 4 月发布的 Llama 3 系列包括多达 700 亿个参数的模型。这些开源模型以其成本效益和在各种基准测试中的强大性能而闻名。
‍
双子座 1.5:Gemini 1.5Google DeepMind 于 2024 年 2 月推出，是一个多模态模型，能够处理文本、图像和其他数据类型。

LLM的关键组成部分

大型语言模型 (LLM) 具有几个关键组件，这些组件协同工作以理解和响应用户提示。其中一些组件被组织成层。每一层处理语言处理管道中的特定任务。

例如，嵌入层将单词分解成更小的片段，并识别它们之间的关系。

在此基础上，前馈层分析这些片段以寻找模式。类似地，循环层确保模型保持正确的单词顺序。

另一个重要的组成部分是注意力机制。它可以帮助模型专注于输入中最相关的部分，从而使其能够优先考虑关键词或短语，而不是不太重要的词语。以将“The cat sat on the mat”翻译成法语为例：注意力机制确保模型将“cat”与“le chat”对齐，将“mat”与“le tapis”对齐，从而保留句子的含义。这些组件逐步协同工作以处理和生成文本。

不同类型的 LLM（大型语言模型）

所有 LLM 共享相同的基础组件，但可以针对特定目的进行构建和定制。以下是不同类型 LLM 及其独特功能的一些示例：

Zero-shot 模型：这些模型可以处理未经专门训练的任务。它们利用所学到的通用知识来理解新的提示，并在不需要额外训练的情况下进行预测。
‍
微调模型：微调模型基于通用模型，但会针对特定任务进行进一步训练。这种额外的训练使它们对于专门应用非常有效。
‍
多模态模型：这些高级模型可以处理和生成多种类型的数据，例如文本和图像。它们专为需要文本和视觉理解相结合的任务而设计。

自然语言处理与大型语言模型有何关系？

自然语言处理 (NLP) 帮助机器理解和处理人类语言，而生成式 AI 侧重于创建新的内容，如文本、图像或代码。大型语言模型 (LLM) 将这两个领域结合在一起。它们使用 NLP 技术来理解语言，然后应用生成式 AI 来创建原创的、类似人类的响应。这种结合使 LLM 能够处理语言并生成创造性的、有意义的文本，从而使其可用于对话、内容创建和翻译等任务。通过结合 NLP 和生成式 AI 的优势，LLM 使机器能够以一种感觉自然和直观的方式进行通信。

LLM 在各行各业的应用

既然我们已经了解了什么是 LLM 以及它的工作原理，接下来让我们看看不同行业中的一些用例，这些用例展示了 LLM 的潜力。

在法律科技中使用 LLM

人工智能模型正在改变法律行业，LLM 使得律师可以更快地完成诸如研究和起草法律文件等任务。它们可用于快速分析法律文本（如法律和过去的案例），以查找律师所需的信息。LLM 还可以协助编写法律文件，例如合同或遗嘱。

有趣的是，LLM 不仅对研究和起草有用，它们也是确保法律合规性和简化工作流程的宝贵工具。组织可以利用 LLM 来遵守法规，识别潜在的违规行为，并提供解决建议。在审查合同时，LLM 可以突出关键细节，识别风险或错误，并提出修改建议。

零售和电子商务：具有 LLM 的 AI 驱动的聊天机器人

LLM 可以分析客户数据，如过去的购买记录、浏览习惯和社交媒体活动，以发现模式和趋势。这有助于创建个性化的产品推荐。与 LLM 集成的应用程序可以指导客户购买产品，例如帮助他们选择商品、将其添加到购物车并完成结账。

此外，基于 LLM 的聊天机器人还能回复客户关于产品、服务和发货的常见咨询。这样，客服代表就可以腾出手来处理更复杂的问题。亚马逊最新的人工智能聊天机器人 Rufus 就是一个很好的例子。它使用 LLM 生成产品评论摘要。Rufus 还能detect 虚假评论，并向客户推荐衣服的尺码选择。

LLM 在研究和学术界的应用

LLM 另一个有趣的应用是在教育领域。LLM 可以为学生生成练习题和测验，使学习更具互动性。

当使用学校教科书进行微调时，LLM 可以提供个性化学习体验，让学生可以按照自己的节奏学习，并专注于他们认为具有挑战性的主题。教师还可以利用 LLM 来批改学生的作业，例如论文和测验，从而节省时间并使他们能够专注于教学的其他方面。

此外，这些模型可以将教科书和学习材料翻译成不同的语言，帮助学生以他们的母语访问教育内容。

大型语言模型的优点和缺点

LLM 通过理解自然语言、自动化摘要和翻译等任务以及辅助编码，提供了诸多优势。它们可以整合来自不同来源的信息，解决复杂问题，并支持多语言交流，使其在众多行业中都非常有用。

然而，它们也带来了一些挑战，例如传播虚假信息的风险、关于创建逼真但虚假内容的伦理问题，以及在关键领域偶尔出现的不准确之处。最重要的是，它们具有显着的环境影响，因为训练单个模型可以产生相当于五辆汽车的碳排放。在其优势与这些局限性之间取得平衡是负责任地使用它们的关键。

主要要点

大型语言模型正在通过使机器更容易理解和创建类似人类的文本来重塑我们使用生成式 AI 的方式。它们正在帮助法律、零售和教育等行业变得更有效率，无论是起草文件、推荐产品还是创建个性化的学习体验。

虽然 LLM 提供了许多好处，例如节省时间和简化任务，但它们也带来了一些挑战，例如准确性问题、伦理问题和环境影响。随着这些模型的改进，它们将在我们的日常生活和工作场所中发挥更大的作用。

要了解更多信息，请访问我们的 GitHub 仓库，并与我们的社区互动。在我们的解决方案页面上探索自动驾驶汽车和农业中的 AI 应用。🚀

从代码到对话：LLM 是如何工作的？

大型语言模型的演变

LLM 是如何工作的？

LLM的关键组成部分

不同类型的 LLM（大型语言模型）

自然语言处理与大型语言模型有何关系？

LLM 在各行各业的应用

在法律科技中使用 LLM

零售和电子商务：具有 LLM 的 AI 驱动的聊天机器人

LLM 在研究和学术界的应用

大型语言模型的优点和缺点

主要要点

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

医疗诊断用视觉人工智能工具

从数据到决策：运用视觉人工智能制定企业战略

让我们一起构建人工智能的未来！