我正在尝试使用维基百科作为数据源来计算逐点互信息(PMI)。给定两个词,PMI 定义了两个词之间的关系。公式如下。
pmi(word1,word2) = log [probability(number of times both words appears in a document together)/probability(word1)*probability(word2)].
因此,要计算 PMI,我需要 word1 和 word2 的联合概率和单个概率。我查看了两个词之间的维基百科矿工相关性分数。他们正在实施 Milne 和 Witten 算法。然而,对于定义主题相似性,PMI 是一个更好的分数。
有谁知道如何使用 dbpedia 或 wikipedia miner 或任何其他软件计算两个单词的 PMI 分数。
拉姆基