数据挖掘 - 文档间语义相似度的方法 - 吾爱随笔录

我想知道人们会采取什么方法，或者在我自己设定的这个挑战上为我指明正确的方向。我对此很陌生，我已经覆盖了一些领域，但想扩展我的技能。

假设你有一篇研究论文的摘要，它是一个较大文档的信息汇总形式，你能从论文列表中计算出这个摘要属于哪篇研究论文吗？

请注意：我不是在问如何总结研究论文。另外，请注意，抽象信息不一定采用与研究论文相同的形式，但在语义上是相似的。

你会用 doc2vec 之类的东西对两个数据集进行编码，以尝试获取文本的语义含义，然后使用余弦相似度吗？

这些论文中使用的数字的语义会在矢量化中丢失吗？

在这种情况下，自定义编码器会工作得最好，还是您认为 USE 或 doc2vec 会更好？

原谅我的基本问题，我只是想在开始编码之前探索一些东西！