数据挖掘 - 对于有状态 LSTM，序列长度重要吗？ - 吾爱随笔录

使用有状态 LSTM，整个状态在提交的批次中的两个序列之间保留，甚至在单独的批次之间保留，直到model.reset_states()被调用。所以我的问题是，序列长度重要吗？

例如，如果我的整个数据集是 1000 行，并且每行有 5 个属性，并且我将序列长度设置为 100，那么我batch_input_shape是[10,100,5]，我的 Y 标签的形状将是[10,3]（例如 3 个 Y 标签）

但是，由于在序列之间保留了状态，那么当最终输入整个序列并保留状态时，序列的长度有什么区别？

我是否认为因为我为每个序列指定了 Y 个标签（在本例中为 10 个），所以这就是区别吗？即它基本上定义了我可以为整个序列提供多少组标签。

例如，如果我将序列长度更改为 200，那么批次形状将是[5,200,5]，因此我将只为整批序列提供 5 组 Y 标签。这将极大地改变网络的学习行为，对吗？

那么，本质上，我是否将其视为一个超参数并尝试使用什么序列长度提供最佳结果？

NN 很有趣；看来您需要一种遗传算法来找到最有效的超参数组合。