我知道,如果 X 都是正数或负数,那么下游梯度的符号将与上游梯度的符号相同,但我不明白的是零中心激活函数如何克服这个问题?
因为,即使在 tanH 函数的情况下,如果所有 X 都是正数,那么符号也保持不变。
原谅我的英语,不是母语人士。
我知道,如果 X 都是正数或负数,那么下游梯度的符号将与上游梯度的符号相同,但我不明白的是零中心激活函数如何克服这个问题?
因为,即使在 tanH 函数的情况下,如果所有 X 都是正数,那么符号也保持不变。
原谅我的英语,不是母语人士。
函数是按比例缩放的标准 sigmoid 函数. 由于这种缩放,它具有比标准 sigmoid 函数更陡峭的梯度。陡峭的梯度很重要,因为它使反向传播训练更快并且不太可能陷入零梯度区域。
此外在哪里. 有时它很重要,尤其是在处理归一化时信号作为输入。
你可以看看这个调查:https ://arxiv.org/pdf/2004.06632.pdf 它讨论了激活函数的不同方面。它还解释了为什么中心激活函数被认为更适合实践。
请注意,如果您考虑通用逼近定理,则激活函数不需要以零为中心。