了解 NER 问题的一般性

数据挖掘 nlp 命名实体识别 文本分类
2022-03-16 06:25:45

命名实体识别 (NER) 是 NLP 文献中的一个众所周知的问题。

它通常解决在文本中定位和分类命名实体的问题,例如OrganizationsProducts

在此处输入图像描述

我正在尝试解决类似的问题,但在我看来,它更笼统一些。给定一个输入文本,我希望能够对整个文本进行全面的注释;不仅是特定的实体,例如Actorsand Organizations,还有更高层次的概念,例如Conditions of Applicabilityand Temporal Conditions,例如:

在此处输入图像描述

增加的困难是我们嵌套了“实体”,例如(从上面):

<denotic> must, <temporal> within the specified period </temporal>, notify ... </deontic>

这仍然可以表述为NER问题吗?如果是这样,假设数据集大约有 50 K 个示例,那么解决此任务的最佳模型类型是什么?

1个回答

所描述的问题不是命名实体识别的更通用版本,而是称为解析的不同问题。解析包括提取文本的句法结构,通常是为了更好地捕捉其语义。有多种方法:

  • 浅解析仅识别句子的组成部分(根据您的示例,这在您的情况下可能就足够了)
  • 统计解析,特别是依赖解析代表了句子的完整结构,包括其成分之间的联系。

有各种用于解析的库和数据集:其中最著名的可能是斯坦福解析器,但 NLP 工具包中经常包含许多其他库和数据集,例如OpenNLPUniversal Dependencies项目是一个庞大的多语言注释文本集合,可用于训练解析器。

语义角色标签(SRL)是一项密切相关的任务,它包括识别谓词(动词)与其相关成分(例如主语、宾语)之间的语义关系。