术语表

大型语言模型 (LLM)

了解大型语言模型 (LLM) 如何利用先进的 NLP 彻底改变人工智能,为聊天机器人、内容创建等提供动力。了解关键概念!

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

大型语言模型(LLM)代表了人工智能(AI)领域,尤其是自然语言处理(NLP)领域的重大进步。这些模型的特点是规模巨大,通常包含数十亿个参数,并在由文本和代码组成的庞大数据集上进行训练。这种广泛的训练使 LLMs 能够理解上下文、生成连贯的类人文本、翻译语言、回答问题,并熟练地执行各种基于语言的任务。它们是深度学习(DL)模型的一种特殊类型,推动了众多应用领域的创新,并构成了现代生成式人工智能的基石。

定义

大型语言模型从根本上说是一种复杂的神经网络(NN),通常基于Transformer架构,该架构在极具影响力的论文"Attention Is All You Need"中有所介绍。大型语言模型中的 "大型 "指的是大量的参数,即在训练过程中进行调整的变量,其范围可从数十亿到数万亿不等。一般来说,参数数量越多,模型就能从数据中学习到更复杂的模式。

LLM 通过对从互联网、书籍和其他来源(通常称为大数据)收集的海量文本库进行无监督学习来学习这些模式。这一过程有助于他们掌握语法、事实、推理能力,甚至是语气和风格等细微差别,但也可能导致他们学习到训练数据中存在的偏差。训练过程中开发的一项核心能力是预测句子中的后续单词。这种预测能力是文本生成语言建模问题解答等更复杂任务的基础。

著名的例子包括OpenAIGPT 系列(如GPT-4)、Meta AI的 Llama 模型(如Llama 3)、Google DeepMind 的 Gemini,以及 Anthropropics 的 Claude。 Anthropic.

应用

LLM 的多功能性使其可以应用于不同的领域。下面是两个具体的例子:

关键概念

了解 LLM 需要熟悉几个相关概念:

  • 基础模型:LLM 通常被视为基础模型,因为它们是在广泛的数据基础上训练出来的,可以针对各种下游任务进行调整(或微调),而无需从头开始训练。
  • 注意机制:特别是自我注意机制,这些机制允许模型在处理特定单词时权衡输入序列中不同单词(词块)的重要性。这对于理解文本中的上下文和关系至关重要。
  • 及时工程:这是指设计有效输入提示的艺术和科学,以引导 LLM 生成所需的输出。提示的质量极大地影响着回答的准确性和相关性。思维链提示等技术有助于提高复杂任务的推理能力。
  • 标记化:在处理文本之前,LLM 会将文本分解成称为标记的较小单元。这些标记可以是单词、子单词或字符。标记化将原始文本转换成模型可以理解的数字格式。平台如 Hugging Face等平台提供了有关不同标记化策略的工具和信息。

LLM 与计算机视觉模型对比

虽然 LLM 擅长语言任务,但它们与主要为计算机视觉(CV)设计的模型有很大不同。CV 模型,如 Ultralytics YOLO模型(例如 YOLOv8YOLOv9YOLOv10 和YOLO11),专门用于解释图像或视频中的视觉信息。它们的任务包括物体检测图像分类实例分割

然而,随着多模态模型视觉语言模型(VLM)的兴起,这种界限正在变得模糊。这些模型,如 OpenAI 的GPT-4o Google的 Gemini,整合了对不同模态(如文本和图像)的理解,可以完成描述图像或回答有关视觉内容的问题等任务。

Ultralytics HUB等平台为训练和部署各种人工智能模型(包括用于视觉任务的模型)提供了工具和基础设施,从而促进了各种人工智能应用的开发。随着 LLM 和其他人工智能模型变得越来越强大,围绕人工智能伦理算法偏差数据隐私的考虑也变得越来越重要。有关人工智能概念和模型比较的更多信息,请访问Ultralytics 文档模型比较页面

阅读全部