数据挖掘 - 预测的偏导数（应用 sigmoid）关于权重 - 吾爱随笔录

数据挖掘梯度下降

2022-02-25 23:34:40

对于我的 Udacity 课程中上述计算中包含看似“额外”的术语的位置，我感到非常困惑。

以上是对 sigmoid 的导数，所以为什么不只是

= σ (W x + b) (1 - σ (W x + b)

$=\sigma(Wx+b)(1-\sigma(Wx+b)$ 而是有

\frac{\partial}{\partial w_{j}} (W x + b)

$\frac{\partial}{\partial w_j}(Wx+b)$ 钉在尾巴上？

1个回答

回想一下，对于链式法则，我们有

\frac{d}{d w} h (g (w)) = h^{'} (g (w)) g^{'} (w)

$\frac{d}{dw}h(g(w))=h'(g(w))g'(w)$

对于您的问题， $h(t)=\sigma(t)$ 和 $g(w)=Wx+b$ ,

因此，这就是为什么我们多了一个任期。

其它你可能感兴趣的问题