在哪里可以找到带有标记的重复文本文档的数据集?

数据挖掘 数据 训练 文本 分类器
2022-02-17 11:22:07

我正在使用分类器检测重复的文本文档。我正在寻找训练数据——文本文档和相应的元数据的语料库,其中列出了语料库中的重复文档对。我在哪里可以找到这样的数据?

1个回答

代替训练分类器,检测重复项可以直接以有利的方式完成:使用相似性度量,如 shingle 签名或散列/校验和函数。

(表示函数 F 的文本应该保留您已经知道是标识符或部分标识符的形式/元元素,并且它还应该包含内容的紧凑表示——如稀疏摘录、校验和或任何其他散列键或规范化形式。然后,比较函数 G 应比较 F 提供的这些文本表示并定义相似度分数。)

您仍然需要评估语料库,因此寻找语料库仍然很重要。我不知道任何开放的,但工作委员会和学术数据库包含很多重复,所以你可以从那里开始。