选择正确的语料库来构建用于比较两个字符串相似度的 TF IDF Vectorizer

数据挖掘 文本挖掘 相似
2022-02-21 11:22:57

我正在评估何时可以将一对字符串对象视为相等(例如,鉴于我们正在谈论期刊,“国际空气和水污染期刊”是否与“空气和水污染”相同?)我想知道什么是用于构建 TF IDF 矢量化器的正确语料库。

我目前正在使用属于同一类型的这些字符串的所有不同值作为语料库(在此示例中,所有字符串都引用期刊)。这是一种有效的方法吗?为什么?还有什么其他有效的方法?

1个回答

Word Mover 的距离 (WMD)是一种用于查找字符串对之间距离的算法。它基于将单词的语义编码成密集向量的单词嵌入(例如 word2vec)。

WMD 距离衡量两个文本文档之间的差异,作为一个文档的嵌入词需要“旅行”以到达另一个文档的嵌入词的最小距离量。

例如:

在此处输入图像描述 资料来源:“从词嵌入到文档距离”论文