如何衡量实体模糊度?

数据挖掘 nlp 文本挖掘 公制 命名实体识别 研究
2022-02-13 15:17:42

在使用/构建实体链接系统时,是否有众所周知的衡量实体“模糊度”的方法?

一些方法来比较命名实体关于消除歧义的难度?

2个回答

实体链接是一种有监督的机器学习,因此可以使用许多常见的性能指标。特别是,创建一个混淆矩阵将确定一个标签在哪里被预测,但真实情况不同。混淆矩阵可以用计数计算或归一化,归一化的数据将是相对于当前数据集中其他标签的“模糊度”的估计。

也可以使用其他分类度量,例如具有 F 分数、精度和召回率。特别是,标签的低精度表明该模型难以从附近的文本中消除实体的歧义。便宜又简单的实体评估”涉及到更多的技术细节。

也可以使用评估者间的可靠性,评估者可以是不同的人或不同的模型。如果不同评估者之间达成一致的联合概率较低,则实体可能被视为难以消除歧义。

性能还取决于完全匹配与部分匹配的相对值。

香农熵是一组固定选择中不确定性的常用度量,正如 Brian Spiering 提供的那样。

关于您的问题-“比较命名实体的消除歧义的难度的某种方法?” -- 请注意,消除实体歧义的难度完全取决于上下文和领域。要给出真正有用的答案,您需要提供有关如何使用您的系统的更多细节。