梯度下降算法中使用的激活函数的导数

数据挖掘 神经网络 回归 梯度下降 激活函数 范围
2022-02-25 19:54:27

为什么在更新模型(回归或NN)参数时需要计算激活函数的导数?为什么线性函数的恒定梯度被认为是一个缺点?

据我所知,当我们使用公式进行随机梯度下降时:

weight=weight+(learning rate×(actual outputpredicted output)input)

那么,权重也得到了很好的更新,那么为什么导数的计算如此重要呢?

1个回答

顾名思义,梯度下降 (GD) 优化是根据梯度原理工作的,梯度基本上是特定函数的所有偏导数的向量。根据维基百科

在向量微积分中,梯度是导数的多变量推广。

GD 的核心是计算复合函数(神经网络本身就是复合函数)的导数(根据神经网络),因为梯度下降更新规则是,

θ=θαJθ

在哪里θ是需要优化的参数。在神经网络中,这个参数可以是权重或偏差。J是需要最小化的目标函数(NN 中的损失函数)。因此对于Jθ,我们需要重复应用链式法则,直到我们得到关于该参数的损失函数的导数。

直觉:

在此处输入图像描述

对不起,奇怪的图像。当 GD 远离函数最小值时(它趋向于到达的地方),Jθ更大,因此更新的值θ比上一个小。这个更新的值由学习率(α)。负号表示我们正朝着与梯度相反的方向移动。