在http://neuralnetworksanddeeplearning.com/chap3.html
作者解释说,对于神经网络中的单个神经元,如果选择激活函数为sigmoid函数,我们可以通过选择代价函数作为交叉熵来消除梯度项中激活函数的导数。
在这个问题中,他问为什么我们不能在成本函数相对于权重的梯度中消除神经元项 x 的输入。
我有以下推理,为了计算成本的梯度,我们使用链式法则,并推导出关于激活的成本,关于 (w * x + b) 的激活,以及权重之和。
对于一个权重Wi,(Summation w * x + b) wrto Wi的导数总是xi,而激活函数的导数不能知道,所以它永远不可能消除Xi,除非它为零。
还是有其他微妙的推理?