术语表

命名实体识别(NER)

通过命名实体识别 (NER) 获得洞察力。了解人工智能如何将非结构化文本转化为适用于各种应用的可操作数据。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

命名实体识别(NER)是自然语言处理(NLP)的一项基本任务,也是现代人工智能(AI)的重要组成部分。它包括自动识别和分类非结构化文本中的特定信息片段(称为 "命名实体")。这些实体通常代表现实世界中的对象,如人物、组织、地点、日期、产品名称、货币价值等。NER 的主要目标是将原始文本转化为结构化数据,使机器更容易理解、处理和提取有价值的见解,用于各种人工智能用例

命名实体识别的工作原理

NER 系统通过分析文本的语言结构和上下文来定位和分类实体。早期的系统在很大程度上依赖语法规则和词典(一种符号 AI),而现代方法则利用机器学习(ML),尤其是深度学习(DL)。像变形金刚这样的模型,通常出现在以下平台上 Hugging Face等平台上常见的 Transformers 这样的模型,擅长理解上下文和微妙的语言模式,从而获得更高的准确性。这一过程一般包括使用通常与标记化相关的技术识别潜在的实体(单词或短语),然后将它们归入预定义的类别(例如,个人、组织、地点、日期、杂项)。这种分类依赖于在大型数据集上训练时学习到的特征,这些数据集通常是专门为 NER 任务注释的。

例如,在句子 "7 月 4 日,萨拉-琼斯代表 Acme 公司参观了埃菲尔铁塔 "中,NER 系统可以识别:

  • 将 "7 月 4 日 "作为日期
  • "萨拉-琼斯",饰演 PERSON
  • "埃菲尔铁塔 "为 LOCATION
  • "Acme公司 "作为组织

对于数据分析或填充知识图谱等下游任务来说,这种结构化输出要比单独的原始文本有用得多。您可以浏览有关 NER 技术的调查,了解更深层次的技术见解。

相关性和应用

文字识别(NER)是一项基础技术,通过对文本信息进行结构化处理,可在各个领域实现众多应用:

  • 信息提取:自动从新闻文章、报告或电子邮件等文档中提取关键细节。例如,从财经新闻中提取公司名称、高管头衔和地点。
  • 内容分类与推荐:用相关实体标记文章或帖子,以改进组织和增强推荐系统
  • 客户支持:分析客户反馈或支持单,以识别提及的产品、地点或具体问题,从而加快路由和解决速度。想象一下,系统会自动标记提及 "iPhone 16 "和 "纽约商店 "的支持电子邮件。
  • 医疗保健:通过从临床笔记中提取病人姓名、诊断、药物和剂量来简化病历管理,并在与报告相结合时为医学影像分析等领域做出贡献。
  • 语义搜索增强搜索引擎,通过识别查询中的实体来理解查询背后的含义(例如,搜索 "卢浮宫附近的餐馆 "需要识别 "卢浮宫 "作为一个 LOCATION)。Google 自然语言 AI等工具提供 NER 功能。
  • 财务分析:从财务报告中提取公司名称、货币价值和日期,用于市场分析和预测建模
  • 合规性与安全性:识别文档中的姓名或地址等敏感信息,确保数据隐私并遵守GDPR 等法规。

Ultralytics HUB 等平台可以帮助管理 NER 模型的 ML 生命周期,包括数据注释模型部署

与相关概念的主要区别

NER 经常与其他 NLP 任务一起使用,但有其独特的侧重点:

  • 情感分析确定文本中表达的情感基调(积极、消极、中性)。NER 可确定讨论的内容,而情感分析则可确定作者感受。
  • 文本摘要旨在创建文本的简短版本,同时保留关键信息。NER 提取的是具体的实体提及,而不是整个文本的浓缩概述。
  • 物体检测 计算机视觉(CV)任务,利用边界框识别和定位图像中的物体。NER 纯粹针对文本数据,而不是视觉数据,如 Ultralytics YOLO模型在检测任务中所做的那样。
  • 自然语言理解(NLU)自然语言理解(NLU):一个更广泛的领域,涵盖对文本意义的整体理解,包括意图识别、关系提取和核心参照解析。NER 是 NLU 中的一个特定子任务,仅侧重于实体识别和分类。
  • 关键词提取识别文本中的重要术语或短语,它们可能是也可能不是命名实体。NER 专门查找预定义的类别,如人物、地点和组织。

正如《计算机视觉项目的步骤》等指南所概述的那样,了解这些区别对于针对特定问题选择正确的 NLP 技术至关重要(尽管这些原则主要针对 CV)。

阅读全部