总结一下 理解 dropout 和梯度下降 和 https://stats.stackexchange.com/questions/207481/dropout-backpropagation-implementation
假设我需要在我的 CNN中实现倒置 dropout 。前馈阶段 dropout 层的所有神经元输出乘以 mask/p,其中 mask 为 0 或 1,p 为保留率。但是我应该在反向传播阶段应用相同的操作(包括除以 p )吗?我想肯定的答案(见上面的第二个链接),但我需要确定。