术语表

语言建模

了解语言建模如何利用先进技术为文本生成、机器翻译和语音识别等 NLP 和 AI 应用提供动力。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

语言建模是自然语言处理(NLP)人工智能(AI)中的一项基本任务,其重点是预测特定语言中单词序列出现的可能性。从本质上讲,它涉及建立能够理解人类语言的统计模式和语法结构的模型,使机器能够处理、理解和生成类似人类交流的文本。这些模型从大量文本数据中学习,捕捉词语之间的关系及其典型的使用模式。

语言建模的工作原理

语言模型的核心是为单词序列分配概率。早期的方法依赖于n-grams 等统计方法,即根据前面的 "n-1 "个单词来计算一个单词的概率。这些模型虽然简单,但难以捕捉文本中的长距离依赖关系。现代语言建模大量使用了神经网络(NN),特别是循环神经网络(RNN)和最近的变形器(Transformers 等架构。Transformers 在"Attention Is All You Need "论文中介绍过,它使用自我注意等机制来权衡序列中不同单词的重要性,而不管它们之间的距离有多远,从而更好地理解上下文。训练这些模型需要处理大型文本库,通过标记化分解文本,并学习这些标记的表示(嵌入)。

相关性和应用

语言建模是许多与人类语言交互的人工智能应用的基础技术。语言建模能够预测和理解单词序列,因此在各个领域都非常有价值。

实际应用包括

  • 预测文本和自动完成:在搜索引擎、电子邮件客户端和智能手机键盘上建议下一个单词或完成句子。
  • 机器翻译:通过预测目标语言中最有可能出现的词序,Google 翻译等服务能够在不同语言之间翻译文本。
  • 语音识别:根据声音信号预测可能的单词序列,从而协助将口语转化为文字。
  • 文本生成:为创意写作工具、摘要、对话系统和聊天机器人(如OpenAI 的ChatGPT)奠定基础。
  • 情感分析:通过分析选词和上下文,帮助理解文本的潜在情感(积极、消极、中性)。
  • 语法更正:识别文本中的语法错误并提出更正建议。

相关概念

理解语言建模需要熟悉相关术语:

  • 自然语言处理(NLP):语言建模是更广泛的NLP领域的一个子领域,包括命名实体识别 (NER)、语音部分标记和问题解答等各种任务。许多 NLP 任务都利用了语言模型。
  • 大型语言模型 (LLM):这些模型是非常先进的语言模型,如GPT-4,其特点是规模庞大(参数多达数十亿),并可在海量数据集(大数据)上进行训练。LLM在理解和生成复杂任务的类人文本方面表现出卓越的能力。许多预训练 LLM 可通过以下平台获得 Hugging Face.
  • 文本生成:文本生成与语言建模密切相关,是语言建模的一种应用。语言模型提供单词序列的概率,而生成过程则利用这些概率(通常采用抽样策略)生成新文本。
  • 多模态模型:这些模型将语言理解与其他数据类型相结合,如计算机视觉(CV)中的图像。CLIP等模型可以学习文本和图像的联合表征,从而完成图像字幕或视觉问题解答等任务。探索Ultralytics HUB,了解管理和部署各种人工智能模型的工具,包括那些可能集成语言功能的模型。
阅读全部