Meta 的 Llama 3 最近发布,引起了人工智能界的极大反响。让我们进一步了解 Llama 3 - Meta 人工智能的最新进展。
当我们盘点 2024 年第一季度的人工智能(AI)创新时,我们发现 LLM(即大型语言模型)正在被不同的组织左右发布。延续这一趋势,2024 年 4 月 18 日,Meta 发布了新一代先进的开源 LLM--Llama 3。
您可能会想这不过是另一个法律硕士而已。为什么人工智能界对它如此感兴趣?
您可以对 GPT-3 或 Gemini 等模型进行微调,以定制响应,但它们的内部运作(如训练数据、模型参数或算法)并不完全透明。相比之下,Meta 的 Llama 3 则更加透明,其架构和权重可供下载。对于人工智能界来说,这意味着更大的实验自由。
在本文中,我们将了解 Llama 3 能做什么、它是如何诞生的,以及它对人工智能领域的影响。让我们直奔主题!
在深入了解 Llama 3 之前,让我们回顾一下它的早期版本。
Meta 公司于 2023 年 2 月推出了 "Llama 1",它有四个变体,参数从 70 亿到 640 亿不等。在机器学习中,"参数 "是指从训练数据中学到的模型元素。由于参数数量较少,Llama 1 有时难以理解细微差别,给出的回答也不一致。
在 Llama 1 之后不久,Meta 于 2023 年 7 月推出了Llama 2。它以 2 万亿个标记为基础进行训练。标记代表一段文本,如一个单词或单词的一部分,是模型处理数据的基本单位。该模型还做了一些改进,如将上下文窗口增加了一倍,达到 4096 个标记,以理解较长的段落,还增加了 100 多万个人工注释,以减少错误。尽管有了这些改进,Llama 2 仍然需要大量的计算能力,而 Meta 的目标是在 Llama 3 中解决这个问题。
Llama 3 有四个变体,它们经过了 15 万亿个令牌的惊人训练。其中超过 5% 的训练数据(约 8 亿个词库)代表了 30 种不同语言的数据。所有 Llama 3 变体都可以在各种类型的消费类硬件上运行,上下文长度为 8kkens 。
模型变体有两种尺寸:8B 和 70B,分别表示 80 亿和 700 亿个参数。此外还有两个版本,即基础版和指导版。"基础 "是指标准的预训练版本。"Instruct "是微调版本,通过在相关数据上的额外训练,针对特定应用或领域进行优化。
这些是 Llama 3 型号的变体:
与其他元人工智能进展一样,在开发 Llama 3 的过程中,我们采取了严格的质量控制措施,以保持数据的完整性,并尽量减少偏差。因此,最终产品是一个以负责任的方式创建的强大模型。
Llama 3 模型架构的突出特点是注重自然语言处理任务的效率和性能。它建立在基于 Transformer 的框架基础上,通过使用纯解码器架构,强调计算效率,尤其是在文本生成过程中。
该模型仅根据前面的语境生成输出,无需编码器对输入进行编码,因此速度更快。
Llama 3 模型配备了一个具有 128K 词库的标记化器。更大的词汇量意味着模型可以更好地理解和处理文本。此外,模型现在还使用分组查询关注(GQA)来提高推理效率。GQA 是一种可视为聚光灯的技术,可帮助模型关注输入数据的相关部分,从而生成更快、更准确的响应。
下面是有关 Llama 3 模型结构的一些更有趣的细节:
为了训练最大的 Llama 3 模型,我们结合了三种并行化方式:数据并行化、模型并行化和管道并行化。
数据并行化将训练数据划分到多个 GPU 上,而模型并行化则划分模型架构,以利用每个GPU 的计算能力。流水线并行化将训练过程分为多个连续阶段,优化了计算和通信。
最高效的实施取得了显著的计算利用率,在 16,000 个 GPU 上同时进行训练时,每个GPU 的计算利用率超过了 400 TFLOPS。这些训练运行是在两个定制的GPU 集群上进行的,每个集群由 24,000 个 GPU 组成。这些庞大的计算基础设施为高效训练大规模 Llama 3 模型提供了必要的动力。
为了最大限度地延长GPU 的正常运行时间,开发了先进的新培训堆栈,实现了错误检测、处理和维护的自动化。硬件可靠性和检测机制得到了极大的改进,以降低无声数据损坏的风险。此外,还开发了新的可扩展存储系统,以减少检查点和回滚开销。
这些改进使总体训练时间的有效性超过 95%。与 Llama 2 相比,Llama 3 的训练效率提高了约三倍。这种效率不仅令人印象深刻,而且为人工智能训练方法开辟了新的可能性。
由于 Llama 3 是开源的,研究人员和学生可以研究其代码、进行实验,并参与有关伦理问题和偏见的讨论。不过,Llama 3 并不只是学术界的专利。它在实际应用中也掀起了波澜。它正在成为 Meta AI 聊天界面的支柱,无缝集成到 Facebook、Instagram、WhatsApp 和 Messenger 等平台。有了 Meta AI,用户可以参与自然语言对话、获得个性化推荐、执行任务并轻松与他人建立联系。
Llama 3 在几个评估复杂语言理解和推理能力的关键基准测试中表现优异。以下是测试 Llama 3 各方面能力的一些基准:
Llama 3 在这些测试中取得的优异成绩使其明显有别于Google的 Gemma 7B、Mistral 的 Mistral 7B 和Anthropic的 Claude 3 Sonnet 等竞争对手。根据已公布的统计数据,特别是 70B 型号,Llama 3 在上述所有基准测试中的表现均优于这些型号。
Meta 正在扩大 Llama 3 的覆盖范围,让普通用户和开发人员都能在各种平台上使用它。对于普通用户,Llama 3 已集成到 Meta 的 WhatsApp、Instagram、Facebook 和 Messenger 等流行平台中。用户可以访问实时搜索等高级功能,并能直接在这些应用中生成创意内容。
Llama 3 还被纳入雷朋 Meta 智能眼镜和 Meta Quest VR 头戴式设备等可穿戴技术,以实现互动体验。
Llama 3 可在多种平台上供开发人员使用,包括 AWS、Databricks、Google Cloud、Hugging Face 、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake。您还可以直接从 Meta 访问这些模型。无论开发人员喜欢直接使用 Meta 还是通过其他流行的平台,这些广泛的选择都能让他们轻松地将这些先进的人工智能模型功能集成到自己的项目中。
机器学习的进步不断改变着我们每天与技术互动的方式。Meta 的 Llama 3 表明,LLM 不再只是生成文本。LLM 正在解决复杂的问题并处理多种语言。总体而言,Llama 3 使人工智能比以往任何时候都更具适应性和可访问性。展望未来,Llama 3 的升级计划将带来更多的功能,如处理多个模型和理解更大的上下文。
查看我们的GitHub 存储库,加入我们的社区,了解更多有关人工智能的信息。访问我们的解决方案页面,了解人工智能在制造业和农业等领域的应用。