我正在使用分类器检测重复的文本文档。我正在寻找训练数据——文本文档和相应的元数据的语料库,其中列出了语料库中的重复文档对。我在哪里可以找到这样的数据?
在哪里可以找到带有标记的重复文本文档的数据集?
数据挖掘
数据
训练
文本
分类器
2022-02-17 11:22:07
1个回答
代替训练分类器,检测重复项可以直接以有利的方式完成:使用相似性度量,如 shingle 签名或散列/校验和函数。
(表示函数 F 的文本应该保留您已经知道是标识符或部分标识符的形式/元元素,并且它还应该包含内容的紧凑表示——如稀疏摘录、校验和或任何其他散列键或规范化形式。然后,比较函数 G 应比较 F 提供的这些文本表示并定义相似度分数。)
您仍然需要评估语料库,因此寻找语料库仍然很重要。我不知道任何开放的,但工作委员会和学术数据库包含很多重复,所以你可以从那里开始。