Word2Vec 与 Doc2Vec 词向量

数据挖掘 nlp word2vec doc2vec
2022-03-05 13:13:49

我正在对文档相似度进行一些分析,并且对单词相似度也很感兴趣。我知道 doc2vec 继承自 word2vec 并且默认情况下使用我们可以访问的词向量进行训练。

我的问题是:

我们是否应该期望这些词向量和关联的任何方法(例如 most_similar)比 word2vec“更好”,还是它们本质上是相同的?如果将来我只想要单词相似度,我应该默认使用 word2vec 吗?

1个回答

如果您只关心单词相似度,那么应用奥卡姆剃刀并使用 word2vec。如果不打算使用,则无需增加模型复杂性。

此外,嵌入的质量主要通过语料库的大小和多样性来提高。该算法对嵌入质量的影响要小得多。