我正在研究 Word2Vec 算法,到目前为止,我了解到,在输入上下文大于 1(所以多个单词)的情况下,我们有我们的隐藏层在输入之间执行平均(如此处所述:Word2Vec CBOW)
我不明白在这种情况下反向传播是如何工作的。
当我从 softmax 输出层开始反向传播并在我的过程中到达隐藏层时,我是否应对所有“相同位置”输入的权重?
为了让我的问题更清楚,如果我将 2 个上下文词编码为一个热向量,并且我将第一个词W11的第一个权重称为 as 并将第二个词的第一个权重称为W21,当我反向传播时,这两个权重将被更新具有相同的价值,对吗?