数据挖掘 - LSTM 中的 h 大小增加？ - 吾爱随笔录

数据挖掘机器学习神经网络 lstm rnn

2022-03-03 14:27:20

所以我正在阅读有关 LSTM 架构的信息，但我无法理解它的某个方面。本文在页面底部附近提到了有问题的步骤。这是给出的图像：

我遇到的问题是：如果 o _{t是对 h}_t-1和 x _t串联的操作的结果，那么 o _t将大于 h _t-1。然后，h _{t通过对现在较大的 o}_t进行运算来计算。h _t然后被“传递”到下一个时间步。那么 h 的大小不会随着时间的推移而不断增加吗？

我肯定误解了其中的一部分，所以提前感谢您的帮助。:)

2个回答

o(t)不是和连接的结果h(t-1)，x(t)而是一个简单的矩阵乘法。有关更多详细信息，请参见维基百科：

请记住矩阵乘法如何处理维度：

将维度的矩阵乘以维度为的矩阵会得到大小为的矩阵。因此，您可以在不改变矩阵乘法结果的形状的情况下向第二个矩阵添加任意多的行。但是当然第一个矩阵需要与此兼容，即与第二个矩阵的行数具有相同的列数。 $n,m$ $m,k$ $n,k$

这正是这里发生的事情：

o_{t} = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o})

$o_t = \sigma (W_o \cdot [h_{t-1},x_t]+b_o)$

W_o的维度不会增加，因为具有恒定的行数并且具有恒定的列数。因此，生成的矩阵的大小将始终为。 $W_o \cdot [h_{t-1},x_t]$ $W_o$ $n$ $[h_{t-1},x_t]$ $k$ $n,k$

编写上述等式的另一种方法（例如，参见此处和@cho_uc 的帖子）是：

o_{t}^{a l t} = σ (W_{o}^{a l t} \cdot h_{t - 1} + U_{o} \cdot x_{t} + b_{o})

$o_t^{alt} = \sigma (W_o^{alt} \cdot h_{t-1} + U_o \cdot x_t+b_o)$

在这里，连接被简单地分成两个单独的术语（和），它们被添加。在您的符号包含和的权重。但结果是一样的。 $W_o^{alt} \cdot h_{t-1}$ $U_o \cdot x_t$ $W_o$ $W_o^{alt}$ $U_o$

其它你可能感兴趣的问题