在神经网络中,有 4 个门:输入、输出、遗忘和一个门,其输出与输入门的输出执行元素相乘,然后添加到单元状态(我不知道这个门的名称,但它是下图中带有输出的那个C_tilde)。
为什么C_tilde需要在模型中添加门?为了允许输入门从单元状态中减去,我们可以更改导致i_tfrom sigmoidto的激活函数tanh并移除C_tilde门。
我的推理是输入门已经有一个权重矩阵W_i,可以乘以输入门的输入,因此它已经进行了过滤。然而,当C_tilde乘以i_t那似乎是另一个不必要的过滤器。
i_t = tanh(W_i * [h_t-1, x_t] + b_i)然后,我提出的输入门将i_t直接添加到C_t(C_t = f_t * C_t + i_t而不是C_t = f_t * C_t + i_t * C_tilde_t)。
