反向传播如何与平均层一起工作?

数据挖掘 神经网络 词嵌入 word2vec rnn
2022-02-22 15:12:58

我正在研究 Word2Vec 算法,到目前为止,我了解到,在输入上下文大于 1(所以多个单词)的情况下,我们有我们的隐藏层在输入之间执行平均(如此处所述:Word2Vec CBOW

我不明白在这种情况下反向传播是如何工作的。

当我从 softmax 输出层开始反向传播并在我的过程中到达隐藏层时,我是否应对所有“相同位置”输入的权重?

为了让我的问题更清楚,如果我将 2 个上下文词编码为一个热向量,并且我将第一个词W11的第一个权重称为 as 并将第二个词的第一个权重称为W21,当我反向传播时,这两个权重将被更新具有相同的价值,对吗?

1个回答

不大可能。

简单的思想实验。如果这两个节点的顶​​点(图形上==权重)相同(第一个单词的向量的第一个单元格和上下文中第二个单词的向量的第一个单元格)(我想说的是它们完全已连接)但是当您前馈这些值时输入值是不同的,不仅这种差异跨越了其他层,因此您不能期望通过反向传播的权重更新将是相同的。