我的具体问题是如何汇总来自多个人工注释者的 NLP 数据——尽管与问题标题相关的一般建议值得赞赏。我在研究中看到的一个关键步骤是通过 Cohen 的 kappa 或其他一些合适的指标来评估注释者间的一致性;我还发现了各种数据集的研究报告值(例如这里),这有助于基线。
应该在每个数据点上工作多少个注释器取决于时间、人员和数据大小要求/约束等因素(我可能会问一个后续问题,以了解如何找到最佳n)。但是,一旦n 个注释者完成了一个数据集,如何将这n 个数据集统一为“基本事实”?我见过的几种方法使用或对我来说似乎是合理的:
取所有注释者的平均值。分类问题有时很难重新表述为分级问题,尽管如果要取平均值,这似乎是必要的。
在有争议的标签的数据中表达某种程度的不确定性,甚至在训练和评估中忽略它们。
添加仲裁步骤以统一或丢弃有争议的标签。我不确定这是否值得注释者的时间。
选择一些在冲突中获得最终决定权的“主要注释者”(可能由 IAA 分数决定)。
非常感谢上述指导/参考以及我可以采取的任何其他步骤来制作高质量的数据集。我最感兴趣的是即使在n很低的情况下也能有效地消除个体注释器偏差。