为什么 seq2seq 模型优于简单的 LSTM?

数据挖掘 机器学习 深度学习 变压器
2022-03-12 16:05:34

深度学习领域的常识是,最强大的循环架构是序列到序列或seq2seq,几乎适用于任何任务(时间序列预测、机器翻译、文本生成)。

为什么?LSTM 编码器-解码器架构优于更规范的 RNN的潜在数学原因是什么?是在密集潜在表示的生成中吗?是关于相对较多的参数吗?任何提示表示赞赏。

2个回答

编码器-解码器架构不仅仅比单纯的 LSTM“更强大”。LSTM 不能(在其标准配置中)用于一般的序列转导任务。另一方面,编码器-解码器架构是条件自回归模型,也就是说,它们在另一个序列上逐个元素地生成一个序列元素。这种差异证明了简单 LSTM 和编码器-解码器架构的不同用例的合理性。

在基于 LSTM 的编码器-解码器架构中,我们应该通过信息从编码器到解码器的传递方式来区分不同的类型。最简单的形式是简单地将编码器 LSTM 的最后一个隐藏状态传递给第一个解码器 LSTM;这意味着来自输入序列的所有信息都被“压缩”成一个固定长度的向量,这被称为信息瓶颈。更复杂的形式包括使用注意机制,其中每个时间步的编码器隐藏状态被组合成每个解码器 LSTM 的不同的先前上下文向量;这里没有瓶颈,通常他们的结果要好得多。

它们不是分离的,seq2seq 模型可以在其架构中使用 LSTM,即编码器和解码器都可以由深度双向 LSTM 构成。

Seq2seq 模型是一种适用于机器翻译等任务的架构。LSTM 只是神经网络的构建块。无法比较两者的相对性能。这有点像在问一个问题,为什么汽车比引擎好,或者房子比内部管道好。

最新形式的 Seq2seq 模型现在使用称为 Transformer 的全新技术,并且可能不再使用可能被认为过时的 LSTM!我想这是任何感知到“优越性”的另一个原因

对于为什么 LSTM 比 RNN 更好,如果你在谷歌上搜索“梯度消失/爆炸问题”,就会有很多信息。