是否有算法或NN来匹配两个文档,基本上不相似?

数据挖掘 机器学习 神经网络 深度学习 文本挖掘 相似
2022-02-13 03:28:19

是否有算法或神经网络来匹配两个文档?一种是索赔说明(例如简历或产品报价),另一种是需求说明(例如空缺说明或 RFP)。它们不相似,所以基本上它本身不是文档相似性。

在文档团队(Doc2vec、Word2vec 或只是 TF-IDF?等)上使用什么更好的嵌入以及进一步的 NN 架构可以基本上找到匹配的分数向量/矩阵作为输入声明文档如何匹配要求的输出文档?或者是否存在任何文本分析算法或其他东西?

提前感谢您的帮助。

1个回答

解释您的问题的一种方法是匹配两个具有相似语义内容但可能不具有相同确切单词的文档。

Word Mover 的距离 (WMD)可能很有用。WMD 是一种用于查找字符串对之间距离的算法。它基于单词嵌入(例如 word2vec),将单词的语义含义编码为密集向量。

WMD 距离衡量两个文本文档之间的差异,作为一个文档的嵌入词需要“旅行”以到达另一个文档的嵌入词的最小距离量。

例如:

在此处输入图像描述 资料来源:“从词嵌入到文档距离”论文