为什么在更新模型(回归或NN)参数时需要计算激活函数的导数?为什么线性函数的恒定梯度被认为是一个缺点?
据我所知,当我们使用公式进行随机梯度下降时:
那么,权重也得到了很好的更新,那么为什么导数的计算如此重要呢?
为什么在更新模型(回归或NN)参数时需要计算激活函数的导数?为什么线性函数的恒定梯度被认为是一个缺点?
据我所知,当我们使用公式进行随机梯度下降时:
那么,权重也得到了很好的更新,那么为什么导数的计算如此重要呢?
顾名思义,梯度下降 (GD) 优化是根据梯度原理工作的,梯度基本上是特定函数的所有偏导数的向量。根据维基百科,
在向量微积分中,梯度是导数的多变量推广。
GD 的核心是计算复合函数(神经网络本身就是复合函数)的导数(根据神经网络),因为梯度下降更新规则是,
在哪里是需要优化的参数。在神经网络中,这个参数可以是权重或偏差。是需要最小化的目标函数(NN 中的损失函数)。因此对于,我们需要重复应用链式法则,直到我们得到关于该参数的损失函数的导数。
直觉:
对不起,奇怪的图像。当 GD 远离函数最小值时(它趋向于到达的地方),更大,因此更新的值比上一个小。这个更新的值由学习率()。负号表示我们正朝着与梯度相反的方向移动。