Dropout 反向传播实现细节

数据挖掘 机器学习 神经网络 喀拉斯 辍学
2022-02-27 23:50:31

总结一下 理解 dropout 和梯度下降https://stats.stackexchange.com/questions/207481/dropout-backpropagation-implementation

假设我需要在我的 CNN中实现倒置 dropout 。前馈阶段 dropout 层的所有神经元输出乘以 mask/p,其中 mask 为 0 或 1,p 为保留率。但是我应该在反向传播阶段应用相同的操作(包括除以 p )吗?我想肯定的答案(见上面的第二个链接),但我需要确定。

1个回答

正如链接中给出的,答案是肯定的!请注意,您将掩码除以 p,这样您就不需要在测试时间乘以 p,并且由于这是新激活的系数,它将来自反向传播中链式法则的导数。