通过命名实体识别 (NER) 获得洞察力。了解人工智能如何将非结构化文本转化为适用于各种应用的可操作数据。
命名实体识别(NER)是自然语言处理(NLP)的一项基本任务,也是现代人工智能(AI)的重要组成部分。它包括自动识别和分类非结构化文本中的特定信息片段(称为 "命名实体")。这些实体通常代表现实世界中的对象,如人物、组织、地点、日期、产品名称、货币价值等。NER 的主要目标是将原始文本转化为结构化数据,使机器更容易理解、处理和提取有价值的见解,用于各种人工智能用例。
NER 系统通过分析文本的语言结构和上下文来定位和分类实体。早期的系统在很大程度上依赖语法规则和词典(一种符号 AI),而现代方法则利用机器学习(ML),尤其是深度学习(DL)。像变形金刚这样的模型,通常出现在以下平台上 Hugging Face等平台上常见的 Transformers 这样的模型,擅长理解上下文和微妙的语言模式,从而获得更高的准确性。这一过程一般包括使用通常与标记化相关的技术识别潜在的实体(单词或短语),然后将它们归入预定义的类别(例如,个人、组织、地点、日期、杂项)。这种分类依赖于在大型数据集上训练时学习到的特征,这些数据集通常是专门为 NER 任务注释的。
例如,在句子 "7 月 4 日,萨拉-琼斯代表 Acme 公司参观了埃菲尔铁塔 "中,NER 系统可以识别:
对于数据分析或填充知识图谱等下游任务来说,这种结构化输出要比单独的原始文本有用得多。您可以浏览有关 NER 技术的调查,了解更深层次的技术见解。
文字识别(NER)是一项基础技术,通过对文本信息进行结构化处理,可在各个领域实现众多应用:
Ultralytics HUB 等平台可以帮助管理 NER 模型的 ML 生命周期,包括数据注释和模型部署。
NER 经常与其他 NLP 任务一起使用,但有其独特的侧重点:
正如《计算机视觉项目的步骤》等指南所概述的那样,了解这些区别对于针对特定问题选择正确的 NLP 技术至关重要(尽管这些原则主要针对 CV)。