数据挖掘 - PV-DBOW 的工作原理 - 吾爱随笔录

Paragraph Vector论文的作者将 PV-DBOW 描述为：

2.3. 没有词序的段落向量：分布式词袋

上述方法考虑了段落向量与词向量的连接来预测文本窗口中的下一个词。另一种方法是忽略输入中的上下文词，但强制模型预测从输出中的段落中随机采样的词。实际上，这意味着在随机梯度下降的每次迭代中，我们采样一个文本窗口，然后从文本窗口中采样一个随机单词，并在给定段落向量的情况下形成一个分类任务。

我有一些问题：

为什么在对随机单词进行采样之前需要对文本窗口进行采样？要创建批处理，为什么不能从[(1, "cat"), (1, "sat"), ..., (1, "mat"), (2, "humpty"), (2, "dumpty"), ... (2, "wall"), ...]每个元组中的第一项代表段落的表单列表中随机抽样？
如果使用分层softmax或负采样，是否仍然使用随机梯度下降来更新网络中的权重？还是这些优化方法本身？
为了推断新段落的表示，该模型是否仅针对从该段落中采样的单词进行训练？