术语表

命名实体识别(NER)

通过命名实体识别 (NER) 获得洞察力。了解人工智能如何将非结构化文本转化为适用于各种应用的可操作数据。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

命名实体识别(NER)是自然语言处理(NLP)的一项基本任务,也是现代人工智能(AI)的重要组成部分。它包括自动识别和分类非结构化文本中的特定信息片段(称为 "命名实体")。这些实体通常代表现实世界中的对象,如人物、组织、地点、日期、产品名称、货币价值等。NER 的主要目标是将原始文本转化为结构化数据,使机器更容易理解、处理和提取有价值的见解。

命名实体识别的工作原理

NER 系统分析文本的语言结构和上下文,以定位和分类实体。早期的系统主要依赖语法规则和词典,而现代方法则利用机器学习(ML),尤其是深度学习(DL)Transformers等模型擅长理解上下文和微妙的语言模式,因此准确率更高。这一过程通常包括识别潜在的实体(单词或短语),然后将其归入预定义的类别(如个人、组织、地点)。

例如,在 "桑达尔-皮查伊在山景城的活动中宣布了Google最新的人工智能模型 "这句话中,NER 系统会将 "桑达尔-皮查伊 "识别为一个人,将 "Google"识别为一个组织,将 "山景城 "识别为一个地点。这种结构化输出对下游任务的作用远远超过单纯的原文。

相关性和应用

文字识别(NER)是一项基础技术,通过对文本信息进行结构化处理,可在各个领域实现众多应用:

  • 信息提取:系统可以扫描大量文件(如新闻报道或研究论文)以提取关键实体,从而加快信息检索和分析。例如,金融分析师可以使用 NER 从收益报告中提取公司名称和货币价值。阅读有关 NER 技术的调查
  • 客户支持自动化:聊天机器人和支持系统使用 NER 识别客户查询中提到的产品名称、用户 ID 或问题类型等关键细节,从而实现高效路由和生成回复。请浏览Google 自然语言人工智能示例。
  • 内容推荐:通过识别文章或视频中提到的实体(如人物、主题或地点),平台可以向用户推荐更相关的内容。
  • 医疗信息学:NER 对于从临床笔记中提取病人姓名、疾病、药物和症状等信息至关重要,有助于病历管理和研究。它可以通过将研究结果与文本报告关联起来,为医学图像分析等任务提供支持。
  • 语义搜索通过理解查询中的实体来增强搜索引擎的能力,从而获得更准确、与上下文更相关的结果。

与相关概念的主要区别

NER 经常与其他 NLP 任务一起使用,但有其独特的侧重点:

  • 情感分析确定文本中表达的情感基调(积极、消极、中性),而不是识别具体的实体。NER 可识别情感的内容(如产品),而情感分析则可识别用户感受。
  • 文本摘要旨在为较长的文本创建一个简短的版本,保留关键信息,但不一定侧重于对所有命名实体进行分类。
  • 物体检测 计算机视觉(CV)任务,用于识别和定位图像或视频中的物体。NER 专门处理文本数据。不过,在多模态应用中,如分析从图像中提取的文本,NER 可作为 CV 的补充。
  • 自然语言理解(NLU)自然语言理解(NLU):一个更广泛的领域,专注于让机器理解文本的含义。NER 被认为是 NLU 中的一个基本子任务。

技术和工具

有几个库和平台可促进 NER 的实施:

  • spaCyNLTK等开源库提供了强大的 NER 功能。
  • Hugging Face提供了大量针对 NER 任务进行微调的预训练Transformer 模型
  • Ultralytics HUB等平台提供了管理人工智能项目的工具,包括训练和部署模型。虽然像 Ultralytics YOLO等视觉模型,但该平台也可以成为包含 NER 等 NLP 任务的大型管道的一部分,尤其是在分析视觉和文本数据的系统中。查看Ultralytics 文档,了解有关模型管理和部署的更多信息。
阅读全部