对于 z < 0,ReLU 函数如何工作?

机器算法验证 机器学习 神经网络 梯度下降
2022-03-30 16:05:15

在此处输入图像描述

我知道对于 z > 0 ,ReLU 函数的梯度是 1 ,因此梯度下降算法可以进行得更快。但是如果 z < 0 会发生什么?那么梯度下降算法将如何进行呢?

2个回答

梯度为零,这意味着没有任何东西通过它们进行反向传播;馈送到该神经元的精确值在何时无关紧要z<0. 如果一个 RELU 单元总是在图的左边,你就会遇到垂死/死 RELU 问题这是人们寻找 RELU 替代品的原因之一。

Sigmoid 激活在两端都有类似的问题;即使它们不像 RELU 那样完全平坦,但一旦达到 +/- 5 左右,它们就足够接近了。

出于相同的原因,反向和正向传播的评估速度都更快:relu 不需要任何计算。梯度是负值的 0 或正值的 1。

我不会说梯度下降速度更快,因为梯度在正值上为 1。只是计算速度更快。