数据挖掘 - 为什么 seq2seq 模型优于简单的 LSTM？ - 吾爱随笔录

为什么 seq2seq 模型优于简单的 LSTM？

数据挖掘机器学习深度学习变压器

2022-03-12 16:05:34

深度学习领域的常识是，最强大的循环架构是序列到序列或seq2seq，几乎适用于任何任务（时间序列预测、机器翻译、文本生成）。

为什么？LSTM 编码器-解码器架构优于更规范的 RNN的潜在数学原因是什么？是在密集潜在表示的生成中吗？是关于相对较多的参数吗？任何提示表示赞赏。

2个回答

编码器-解码器架构不仅仅比单纯的 LSTM“更强大”。LSTM 不能（在其标准配置中）用于一般的序列转导任务。另一方面，编码器-解码器架构是条件自回归模型，也就是说，它们在另一个序列上逐个元素地生成一个序列元素。这种差异证明了简单 LSTM 和编码器-解码器架构的不同用例的合理性。

在基于 LSTM 的编码器-解码器架构中，我们应该通过信息从编码器到解码器的传递方式来区分不同的类型。最简单的形式是简单地将编码器 LSTM 的最后一个隐藏状态传递给第一个解码器 LSTM；这意味着来自输入序列的所有信息都被“压缩”成一个固定长度的向量，这被称为信息瓶颈。更复杂的形式包括使用注意机制，其中每个时间步的编码器隐藏状态被组合成每个解码器 LSTM 的不同的先前上下文向量；这里没有瓶颈，通常他们的结果要好得多。

它们不是分离的，seq2seq 模型可以在其架构中使用 LSTM，即编码器和解码器都可以由深度双向 LSTM 构成。

Seq2seq 模型是一种适用于机器翻译等任务的架构。LSTM 只是神经网络的构建块。无法比较两者的相对性能。这有点像在问一个问题，为什么汽车比引擎好，或者房子比内部管道好。

最新形式的 Seq2seq 模型现在使用称为 Transformer 的全新技术，并且可能不再使用可能被认为过时的 LSTM！我想这是任何感知到“优越性”的另一个原因

对于为什么 LSTM 比 RNN 更好，如果你在谷歌上搜索“梯度消失/爆炸问题”，就会有很多信息。

其它你可能感兴趣的问题

上一篇与 fit_generator 一起使用时，Keras 序列生成器会导致大量内存使用下一篇如何减少均方根误差