在词嵌入中平均两个向量有意义吗?

数据挖掘 词嵌入
2022-02-17 01:05:52

我目前正在使用在大型语料库上预训练的 GloVe 嵌入矩阵。就我的目的而言,它可以正常工作,但是,它不知道一些单词(例如,单词“eSignature”)。这有点破坏了我的结果。我没有时间或数据在不同的(更特定于领域的)语料库上重新训练,所以我想知道是否可以基于现有向量添加向量。我用 E(word) 表示词的嵌入。下面的工作吗?

E(eSignature) = 1/2 * ( E(electronic) + E(signature) )

如果不是,我可以使用哪些其他想法在词嵌入中添加几个词?

1个回答

如果您的目标是用唯一向量表示句子或文档,则平均嵌入向量可能是有意义的。对于词汇表之外的单词,在模型训练期间只使用随机初始化并允许训练嵌入参数更有意义。通过这种方式,模型将自行学习词汇表外单词的表示。

或者,您可以使用 WordNet [1] 等外部资源来提取一组同义词和其他与特定术语密切相关的词,然后利用这些紧密词的向量(平均它们可能有意义,但它始终是测试的问题看看会发生什么,据我所知,还没有建立任何基本规则)。

[1] https://wordnet.princeton.edu