预测的偏导数(应用 sigmoid)关于权重

数据挖掘 梯度下降
2022-02-25 23:34:40

对于我的 Udacity 课程中上述计算中包含看似“额外”的术语的位置,我感到非常困惑。

来自 Udacity 梯度下降介绍

以上是对 sigmoid 的导数,所以为什么不只是

=σ(Wx+b)(1σ(Wx+b)
而是有wj(Wx+b)钉在尾巴上?

1个回答

回想一下,对于链式法则,我们有

ddwh(g(w))=h(g(w))g(w)

对于您的问题,h(t)=σ(t)g(w)=Wx+b,

因此,这就是为什么我们多了一个任期。