Phased LSTM的梯度推导参考

数据挖掘 梯度下降 lstm
2022-02-17 03:01:51

我已经完成了 Phased LSTM 的反向传播(Daniel Neil、Michael Pfeiffer 和 Shih-Chii Liu 2016),并希望展示这些笔记。这是一项相对困难的任务,所以我把它贴在这里,以帮助任何人在推导方面遇到困难。

我假设您知道如何为通常的 LSTM 进行反向支持,因此将仅显示最关键的梯度片段。

请记住,梯度流向与箭头相反的方向。Phased LSTM 使用窥视孔。

另外,请注意,作者通过将“最近的更新时间”称为来跳过一些时间步, 但我只使用来表示所有内容。那是因为在训练期间我们需要考虑每个时间步长——时间门中存在“泄漏”。但是,正如论文所建议的那样,泄漏在运行时被关闭,然后您可以使用并跳过任何“非 j”时间步以节省性能。tjttj

注意 - 笔记中可能仍然存在错误,尽管我已经彻底检查过,也通过梯度检查程序进行了检查。不过,如果你发现一个,请告诉我。

这是关于通过模运算符的偏导数的链接

要使用的工具:

商规则说:

ai(g(ai)h(ai))=g(ai)aih(ai)g(ai)h(ai)aih(ai)2

和链规则说:

ai[g(h(ai))]=g(h(ai))h(ai)h(ai)ai

作为奖励,产品规则说:

aig(ai)h(ai)=g(ai)ai+h(ai)ai
在此处输入图像描述

第2部分:

在此处输入图像描述

0个回答
没有发现任何回复~