术语表

自然语言处理(NLP)

探索自然语言处理 (NLP) 的概念、技术和应用,如聊天机器人、情感分析和机器翻译。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

自然语言处理(NLP)是人工智能(AI)机器学习(ML)中一个充满活力的领域,致力于使计算机能够理解、处理、解释和生成人类语言(包括文本和语音)。它将计算语言学的原理与统计建模、ML 和深度学习 (DL)模型相结合,在人类交流和计算机理解之间架起了一座桥梁。其最终目标是让机器能够以一种既有意义又有用的方式与语言进行交互,自动完成传统上需要人类语言能力才能完成的任务。

NLP 的关键概念

NLP 涉及几项核心任务,这些任务将复杂的语言分解成机器可以分析和处理的组成部分:

  • 标记化将文本分解为单词或子单词(标记)等较小单位的第一步。
  • 命名实体识别(NER)识别文本中的关键实体并对其进行分类,例如人名、组织名称、地点、日期和货币价值。
  • 情感分析确定文本中表达的情感基调或主观意见(如积极、消极、中性)。
  • 机器翻译自动将文字或语音从一种语言翻译成另一种语言,Google 翻译等工具。
  • 语言建模建立预测单词序列概率的模型,这对文本生成和语音识别等任务至关重要。

NLP 的工作原理

NLP 系统通常采用管道式方法。原始文本数据首先要经过数据预处理,包括清理文本(删除无关字符或格式)、标记化,有时还要进行规范化(将单词转换为基本形式)等任务。预处理后,提取与任务相关的特征。然后将这些特征输入到 ML 或 DL 模型中进行分析或生成。

现代 NLP 在很大程度上依赖于神经网络(NN),特别是用于序列数据的递归神经网络(RNN)等复杂架构,以及最近出现的变形器(Transformers 。变换器以其强大的注意机制而与众不同,在捕捉语言中的长距离依赖关系和上下文方面被证明异常有效。这种架构是许多最先进模型的基础,包括BERTGPT 模型(如 GPT-4)的变体。ACL 文集等研究平台收录了大量详细介绍这些进展的论文。

NLP 的应用

NLP 为大量应用提供了动力,这些应用正在改变着各行各业,并增强着日常互动。以下是两个突出的例子:

  1. 虚拟助理聊天机器人 苹果的 Siri亚马逊 Alexa 等系统以及无数的客户服务聊天机器人都广泛使用了 NLP。它们利用语音识别将口语转换为文本,利用自然语言理解(NLU)掌握用户的意图,有时还利用文本生成来制定回复。
  2. 垃圾邮件过滤:NLP 技术可分析电子邮件内容,识别垃圾邮件或网络钓鱼企图的特征模式。算法根据关键字、发件人信誉和语言结构对电子邮件进行分类,帮助保持收件箱的清洁和安全。

其他常见应用包括用于压缩长篇文档的文本摘要、理解查询含义而非简单关键词匹配的语义搜索引擎,以及语法/文体校正工具(如Grammarly)。许多创新的人工智能应用案例在很大程度上都依赖于 NLP。

NLP 与相关概念

虽然相关,但 NLP 与一些类似术语有所不同:

  • 自然语言理解(NLU)NLU 是 NLP 的一个子集,专门侧重于理解方面--从语言中提取意义、意图和上下文。NLP 的范围更广,还包括文本生成和语音合成等任务。
  • 文本生成这是 NLP 中的一项特定功能或任务,重点是生成类人文本。虽然它是许多 NLP 应用(如聊天机器人或翻译)的核心部分,但它并不涵盖 NLP 的理解或分析方面。
  • 计算机视觉(CV)计算机视觉涉及解释和理解来自图像和视频等视觉输入的信息,侧重于物体检测图像分割等任务。而 NLP 则侧重于语言数据。然而,在处理文本和图像的多模态模型中,这两个领域的交集越来越多,使自动图像字幕等应用成为可能。您可以阅读更多有关连接 NLP 和 CV 的信息。Ultralytics 专注于 CV,提供的模型包括 Ultralytics YOLO11等模型,用于要求高准确度和高速度的任务。

工具和平台

开发和部署 NLP 应用程序通常需要利用专门的库和平台:

  • 库: spaCyNLTK等开源库为标记化、解析和实体识别等常见 NLP 任务提供了工具。
  • 平台Hugging FaceUltralytics HUB 提供了一个庞大的预训练模型(尤其是 Transformers)、数据集和工具,大大加快了开发速度。为了管理 ML 模型的端到端生命周期,包括在 NLP 或 CV-NLP 组合管道中使用的模型,Ultralytics HUB等平台提供了强大的MLOps功能,可简化训练、部署和监控。查看Ultralytics 文档,了解有关模型开发和部署的更多资源。
阅读全部