PV-DBOW 的工作原理

数据挖掘 nlp 文本挖掘 word2vec 词嵌入 gensim
2022-03-07 22:57:45

Paragraph Vector论文的作者将 PV-DBOW 描述为:

2.3. 没有词序的段落向量:分布式词袋

上述方法考虑了段落向量与词向量的连接来预测文本窗口中的下一个词。另一种方法是忽略输入中的上下文词,但强制模型预测从输出中的段落中随机采样的词。实际上,这意味着在随机梯度下降的每次迭代中,我们采样一个文本窗口,然后从文本窗口中采样一个随机单词,并在给定段落向量的情况下形成一个分类任务。

我有一些问题:

  1. 为什么在对随机单词进行采样之前需要对文本窗口进行采样?要创建批处理,为什么不能从[(1, "cat"), (1, "sat"), ..., (1, "mat"), (2, "humpty"), (2, "dumpty"), ... (2, "wall"), ...]每个元组中的第一项代表段落的表单列表中随机抽样?
  2. 如果使用分层softmax或负采样,是否仍然使用随机梯度下降来更新网络中的权重?还是这些优化方法本身?
  3. 为了推断新段落的表示,该模型是否仅针对从该段落中采样的单词进行训练?
1个回答
  1. 通过使用段落中单词的信息来训练段落向量。如果我们按照您的建议在不区分段落的情况下随机采样,则段落向量将在向量空间中由不属于该段落组成部分的其他单词进行调整。因此它将通过单词的不相关句法和语义信息来映射/投影段落向量。

  2. 分层 softmax 和负采样都不是基于梯度的优化器之一。这些方法只是调整/改变目标函数以更容易和更快地训练。

  3. 我不确定,但我认为这是不可能的。检查这个:doc2vec - 推理步骤在 PV-DBOW 中如何工作