数据挖掘 - 反向传播如何与平均层一起工作？ - 吾爱随笔录

我正在研究 Word2Vec 算法，到目前为止，我了解到，在输入上下文大于 1（所以多个单词）的情况下，我们有我们的隐藏层在输入之间执行平均（如此处所述：Word2Vec CBOW）

我不明白在这种情况下反向传播是如何工作的。

当我从 softmax 输出层开始反向传播并在我的过程中到达隐藏层时，我是否应对所有“相同位置”输入的权重？

为了让我的问题更清楚，如果我将 2 个上下文词编码为一个热向量，并且我将第一个词W11的第一个权重称为 as 并将第二个词的第一个权重称为W21，当我反向传播时，这两个权重将被更新具有相同的价值，对吗？