我对 NLP 很陌生,虽然这似乎是一个基本问题,但我不知道如何在线搜索答案。
这是我的问题:我从 2 个文本源中提取和排名关键字:
排名为 1 表示此关键字比排名为 5 的关键字更重要。某些关键字可能不存在于一个文本中,但存在于另一个文本中。在这种情况下,如果关键字不存在,则没有排名,因此,Nan。
我需要使用什么方法来提取关键字排名之间的相似度?我想根据它包含的关键字和这些关键字的排名来找出这两个文本的相似程度。
我通过删除包含 Nan 值的行然后将 text1Rank 和 text2Rank 视为如下向量来尝试余弦相似度:
2 列是我传入余弦相似度公式的向量。
但是,我不认为这种方法对排名较高的关键字的权重大于排名较低的关键字。我这样想对吗?
如果是这样,我应该使用什么方法来比较两组关键字的排名?

