Llama 3：Meta 全新开源 LLM 解读

当我们盘点 2024 年第一季度的人工智能（AI）创新时，我们发现 LLM（即大型语言模型）正在被不同的组织左右发布。延续这一趋势，2024 年 4 月 18 日，Meta 发布了新一代先进的开源 LLM--Llama 3。

您可能会想这不过是另一个法律硕士而已。为什么人工智能界对它如此感兴趣？

您可以对 GPT-3 或 Gemini 等模型进行微调，以定制响应，但它们的内部运作（如训练数据、模型参数或算法）并不完全透明。相比之下，Meta 的 Llama 3 则更加透明，其架构和权重可供下载。对于人工智能界来说，这意味着更大的实验自由。

在本文中，我们将了解 Llama 3 能做什么、它是如何诞生的，以及它对人工智能领域的影响。让我们直奔主题！

美达拉玛模型的演变

在深入了解 Llama 3 之前，让我们回顾一下它的早期版本。

Meta 于 2023 年 2 月推出了 Llama 1，它有四个变体，参数从 70 亿到 640 亿不等。在机器学习中，"参数 "是指从训练数据中学到的模型元素。由于参数数量较少，Llama 1 有时难以理解细微差别，给出的回答也不一致。

在 Llama 1 之后不久，Meta 于 2023 年 7 月推出了Llama 2。它以 2 万亿个标记为基础进行训练。标记代表一段文本，如一个单词或单词的一部分，是模型处理数据的基本单位。该模型还做了一些改进，比如将上下文窗口扩大了一倍，增加了 4096 个标记，以理解较长的段落；增加了 100 多万个人工注释，以减少错误。尽管有了这些改进，Llama 2 仍然需要大量的计算能力，而 Meta 的目标是在 Llama 3 中解决这个问题。

介绍 Meta's Llama 3

Llama 3 有四个变体，它们经过了 15 万亿个令牌的惊人训练。其中超过 5% 的训练数据（约 8 亿个词库）代表了 30 种不同语言的数据。所有 Llama 3 变体都可以在各种类型的消费类硬件上运行，上下文长度为 8kkens 。

模型变体有两种尺寸：8B 和 70B，分别表示 80 亿和 700 亿个参数。此外还有两个版本，即基础版和指导版。"基础 "是指标准的预训练版本。"Instruct "是针对特定应用或领域，通过在相关数据上进行额外训练而优化的微调版本。

这些是 Llama 3 型号的变体：

Meta-Llama-3-8b：
‍
Meta-Llama-3-8b-instruct：8B 模型的指导微调版，针对特定任务进行了优化。例如，它可用于创建解释复杂主题的教育工具。
‍
Meta-Llama-3-70b：基础 70B 模型专为高性能人工智能应用而设计。该模型适用于处理大量生物医学文献以发现药物等应用。
‍
Meta-Llama-3-70b-instruct：该版本在 70B 型的基础上进行了微调，适用于高度精确的应用，如分析法律或医疗文件等对精确度要求极高的应用。

Meta 的 Llama 3 模型结构

与其他元人工智能进展一样，在开发 Llama 3 的过程中，我们采取了严格的质量控制措施，以保持数据的完整性，并尽量减少偏差。因此，最终产品是一个以负责任的方式创建的强大模型。

Llama 3 模型架构的突出特点是注重自然语言处理任务的效率和性能。它建立在基于 Transformer 的框架基础上，通过使用纯解码器架构，强调计算效率，尤其是在文本生成过程中。

该模型仅根据前面的上下文生成输出，无需编码器对输入进行编码，因此速度更快。

Llama 3 模型配备了一个具有 128K 词库的标记化器。更大的词汇量意味着模型可以更好地理解和处理文本。此外，模型现在还使用分组查询关注（GQA）来提高推理效率。GQA 是一种可视为聚光灯的技术，可帮助模型关注输入数据的相关部分，从而生成更快、更准确的响应。

下面是有关 Llama 3 模型结构的一些更有趣的细节：

边界感知文档处理：
‍
更好地理解代码：
‍
强大的质量控制：严格的措施，包括启发式过滤器和 NSFW 删除，可确保数据完整性并最大限度地减少偏差。

Llama 3 改变了我们的模型培训方式

为了训练最大的 Llama 3 模型，我们结合了三种并行化方式：数据并行化、模型并行化和管道并行化。

数据并行化将训练数据划分到多个 GPU 上，而模型并行化则将模型架构分割开来，以利用每个 GPU 的计算能力。管道并行化将训练过程分为多个连续阶段，优化了计算和通信。

最高效的实施方案实现了出色的计算利用率，在 16,000 个 GPU 上同时进行训练时，每个 GPU 的计算利用率超过了 400 TFLOPS。这些训练运行是在两个定制的 GPU 集群上进行的，每个集群由 24,000 个 GPU 组成。这些庞大的计算基础设施为高效训练大规模 Llama 3 模型提供了必要的动力。

为了最大限度地延长 GPU 的正常运行时间，我们开发了先进的新培训堆栈，实现了错误检测、处理和维护的自动化。硬件可靠性和检测机制得到了极大改进，以降低静默数据损坏风险。此外，还开发了新的可扩展存储系统，以减少检查点和回滚开销。

这些改进使总体训练时间的有效性超过 95%。与 Llama 2 相比，Llama 3 的训练效率提高了约三倍。这种效率不仅令人印象深刻，而且为人工智能训练方法开辟了新的可能性。

用 Llama 3 打开大门

由于 Llama 3 是开源的，研究人员和学生可以研究其代码、进行实验，并参与有关伦理问题和偏见的讨论。不过，Llama 3 并不只是学术界的专利。它在实际应用中也掀起了波澜。它正在成为 Meta AI 聊天界面的支柱，无缝集成到 Facebook、Instagram、WhatsApp 和 Messenger 等平台。有了 Meta AI，用户可以参与自然语言对话、获得个性化推荐、执行任务并轻松与他人建立联系。

Llama 3 与其他 LLM 的比较

Llama 3 在几项评估复杂语言理解和推理能力的关键基准测试中表现优异。以下是测试 Llama 3 各方面能力的一些基准：

大规模多任务语言理解 (MMLU) - 衡量其跨不同领域的知识。
‍
通用问题解答 (GPQA) - 评估模型为各种常识性问题生成连贯、正确答案的能力。
‍
HumanEval - 侧重于编码和解决问题的任务，测试模型生成功能编程代码和解决算法难题的能力。

Llama 3 在这些测试中取得的优异成绩使其明显有别于 Google 的 Gemma 7B、Mistral 的 Mistral 7B 和 Anthropic 的 Claude 3 Sonnet 等竞争对手。根据公布的统计数据，特别是 70B 型号，Llama 3 在上述所有基准测试中的表现都优于这些型号。

Meta Llama 3 正在被广泛使用

Meta 正在扩大 Llama 3 的覆盖范围，让普通用户和开发人员都能在各种平台上使用它。对于普通用户，Llama 3 已集成到 Meta 的 WhatsApp、Instagram、Facebook 和 Messenger 等流行平台中。用户可以访问实时搜索等高级功能，并能直接在这些应用中生成创意内容。

Llama 3 还被纳入雷朋 Meta 智能眼镜和 Meta Quest VR 头戴式设备等可穿戴技术，以实现互动体验。

Llama 3 可在多种平台上供开发人员使用，包括 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake。您还可以直接从 Meta 访问这些模型。无论开发人员是喜欢直接使用 Meta 还是通过其他流行的平台，这些广泛的选择都能让他们轻松地将这些先进的人工智能模型功能集成到自己的项目中。

外卖

机器学习的进步不断改变着我们每天与技术互动的方式。Meta 的 Llama 3 表明，LLM 不再只是生成文本。LLM 正在解决复杂的问题并处理多种语言。总体而言，Llama 3 使人工智能比以往任何时候都更具适应性和可访问性。展望未来，Llama 3 的升级计划将带来更多的功能，例如处理多个模型和理解更大的上下文。

查看我们的GitHub 存储库，加入我们的社区，了解更多有关人工智能的信息。访问我们的解决方案页面，了解人工智能在制造业和农业等领域的应用。

了解 Meta's Llama 3

美达拉玛模型的演变

介绍 Meta's Llama 3

Meta 的 Llama 3 模型结构

Llama 3 改变了我们的模型培训方式

用 Llama 3 打开大门

Llama 3 与其他 LLM 的比较

Meta Llama 3 正在被广泛使用

外卖

在此类别中阅读更多内容

了解快速成型制造：技术和使用案例

机器人技术在制造业中的发展与未来

智能制造：智能生产指南

让我们共同打造人工智能的未来
！

了解 Meta's Llama 3

美达拉玛模型的演变

介绍 Meta's Llama 3

Meta 的 Llama 3 模型结构

Llama 3 改变了我们的模型培训方式

用 Llama 3 打开大门

Llama 3 与其他 LLM 的比较

Meta Llama 3 正在被广泛使用

外卖

在此类别中阅读更多内容

了解快速成型制造：技术和使用案例

机器人技术在制造业中的发展与未来

智能制造：智能生产指南

让我们共同打造人工智能的未来！

让我们共同打造人工智能的未来
！