像 tanh 这样的零中心激活函数如何帮助梯度下降?

数据挖掘 机器学习 梯度下降
2022-03-01 23:52:08

我知道,如果 X 都是正数或负数,那么下游梯度的符号将与上游梯度的符号相同,但我不明白的是零中心激活函数如何克服这个问题?

因为,即使在 tanH 函数的情况下,如果所有 X 都是正数,那么符号也保持不变。

原谅我的英语,不是母语人士。

2个回答

tanh函数是按比例缩放的标准 sigmoid 函数y=11+eax. 由于这种缩放,它具有比标准 sigmoid 函数更陡峭的梯度。陡峭的梯度很重要,因为它使反向传播训练更快并且不太可能陷入零梯度区域。

此外y(0)0在哪里tanh(0)=0. 有时它很重要,尤其是在处理归一化时[0,1]信号作为输入。

你可以看看这个调查:https ://arxiv.org/pdf/2004.06632.pdf 它讨论了激活函数的不同方面。它还解释了为什么中心激活函数被认为更适合实践。

请注意,如果您考虑通用逼近定理,则激活函数不需要以零为中心。