为什么要使用词嵌入来查找相似的词?

数据挖掘 nlp word2vec 词嵌入 斯坦福-nlp
2022-03-02 22:09:39

词嵌入(例如 GloVe)的应用之一是寻找具有相似含义的词。我刚刚查看了 glove 在大型数据集上生成的一些嵌入,我发现给定单词的最近邻居通常是相当不相关的。例如。'dad' 是'mom' 的最近邻,'dealership' 是'car' 的第七近邻。

鉴于此,如果您想找到语义相似的单词,为什么您更喜欢使用嵌入而不是仅仅从人工编译的在线词典中下载同义词数据库?

1个回答

这取决于如何定义相似性。如果相似性被定义为人类定义的语义,那么同义词集(即同义词集)是最合适的。如果相似性被定义为频繁的共现,那么词嵌入是最合适的。即使在语义相似性中,也有许多超越同义词集的方法。

词嵌入相对于同义词集的一个优势是能够自动找到与多词术语词汇表的相似性。例如,常用词类比——男人对国王,女人对王后