数据挖掘 - 梯度下降算法中使用的激活函数的导数 - 吾爱随笔录

数据挖掘神经网络回归梯度下降激活函数范围

2022-02-25 19:54:27

为什么在更新模型（回归或NN）参数时需要计算激活函数的导数？为什么线性函数的恒定梯度被认为是一个缺点？

据我所知，当我们使用公式进行随机梯度下降时：

weight = weight + (learning rate \times (actual output - predicted output) * input)

$\text{weight} = \text{weight} + (\text{learning rate}\times (\text{actual output} - \text{predicted output}) * \text{input})$

那么，权重也得到了很好的更新，那么为什么导数的计算如此重要呢？

1个回答

顾名思义，梯度下降 (GD) 优化是根据梯度原理工作的，梯度基本上是特定函数的所有偏导数的向量。根据维基百科，

在向量微积分中，梯度是导数的多变量推广。

GD 的核心是计算复合函数（神经网络本身就是复合函数）的导数（根据神经网络），因为梯度下降更新规则是，

$\Large \theta = \theta - \alpha \frac{\partial J}{\partial \theta}$

在哪里 $\theta$ 是需要优化的参数。在神经网络中，这个参数可以是权重或偏差。 $J$ 是需要最小化的目标函数（NN 中的损失函数）。因此对于 $\frac{\partial J}{\partial \theta}$ ，我们需要重复应用链式法则，直到我们得到关于该参数的损失函数的导数。

直觉：

对不起，奇怪的图像。当 GD 远离函数最小值时（它趋向于到达的地方）， $\frac{\partial J}{\partial \theta}$ 更大，因此更新的值 $\theta$ 比上一个小。这个更新的值由学习率（ $\alpha$ ）。负号表示我们正朝着与梯度相反的方向移动。

其它你可能感兴趣的问题