我已经完成了 Phased LSTM 的反向传播(Daniel Neil、Michael Pfeiffer 和 Shih-Chii Liu 2016),并希望展示这些笔记。这是一项相对困难的任务,所以我把它贴在这里,以帮助任何人在推导方面遇到困难。
我假设您知道如何为通常的 LSTM 进行反向支持,因此将仅显示最关键的梯度片段。
请记住,梯度流向与箭头相反的方向。Phased LSTM 使用窥视孔。
另外,请注意,作者通过将“最近的更新时间”称为来跳过一些时间步, 但我只使用来表示所有内容。那是因为在训练期间我们需要考虑每个时间步长——时间门中存在“泄漏”。但是,正如论文所建议的那样,泄漏在运行时被关闭,然后您可以使用并跳过任何“非 j”时间步以节省性能。
注意 - 笔记中可能仍然存在错误,尽管我已经彻底检查过,也通过梯度检查程序进行了检查。不过,如果你发现一个,请告诉我。
要使用的工具:
商规则说:
和链规则说:
作为奖励,产品规则说:
第2部分:

