我想知道人们会采取什么方法,或者在我自己设定的这个挑战上为我指明正确的方向。我对此很陌生,我已经覆盖了一些领域,但想扩展我的技能。
假设你有一篇研究论文的摘要,它是一个较大文档的信息汇总形式,你能从论文列表中计算出这个摘要属于哪篇研究论文吗?
请注意:我不是在问如何总结研究论文。另外,请注意,抽象信息不一定采用与研究论文相同的形式,但在语义上是相似的。
你会用 doc2vec 之类的东西对两个数据集进行编码,以尝试获取文本的语义含义,然后使用余弦相似度吗?
这些论文中使用的数字的语义会在矢量化中丢失吗?
在这种情况下,自定义编码器会工作得最好,还是您认为 USE 或 doc2vec 会更好?
原谅我的基本问题,我只是想在开始编码之前探索一些东西!