对于我的 Udacity 课程中上述计算中包含看似“额外”的术语的位置,我感到非常困惑。
以上是对 sigmoid 的导数,所以为什么不只是
=σ(Wx+b)(1−σ(Wx+b)=σ(Wx+b)(1−σ(Wx+b) 而是有∂∂wj(Wx+b)∂∂wj(Wx+b)钉在尾巴上?
回想一下,对于链式法则,我们有ddwh(g(w))=h′(g(w))g′(w)ddwh(g(w))=h′(g(w))g′(w)
对于您的问题,h(t)=σ(t)h(t)=σ(t)和g(w)=Wx+bg(w)=Wx+b,
因此,这就是为什么我们多了一个任期。