检查 TF-IDF 结果

数据挖掘 tfidf 余弦距离 类似文件
2022-03-14 20:52:41

我正在使用 TF-IDF 和余弦相似度进行文档比较并给出一个文档,数据中的哪个文档最相似。但是,有时它会返回两个文档之间的高度相似性,当阅读文档对时,这两个文档看起来不太相似。是否有传统的方法可以使用 TF-IDF 和余弦相似度来评估哪些词有助于两个文档之间的高相似度得分?

1个回答

是的,余弦 TF-IDF 非常透明,因此通常很容易可视化对分数贡献最大的单词。余弦被定义为点积除以范数的积,因此您可以隔离这些术语:

dotproduct(d_1,d_2) = tfidf(w1,d1) * tfidf(w1,d2) + tfidf(w2,d1) * tfidf(w2,d2) + ... + tfidf(wN,dN)

按术语 tfidf(w_i,d1) * tfidf(w_i,d2) 的降序对单词 w_i 进行排名,给出相似度得分贡献最高的单词。

请注意,如果文档的大小差异很大,这将产生影响,因为余弦已根据它们的规范进行标准化。