对于有状态 LSTM,序列长度重要吗?

数据挖掘 神经网络 lstm rnn
2022-03-02 02:18:53

使用有状态 LSTM,整个状态在提交的批次中的两个序列之间保留,甚至在单独的批次之间保留,直到model.reset_states()被调用。所以我的问题是,序列长度重要吗?

例如,如果我的整个数据集是 1000 行,并且每行有 5 个属性,并且我将序列长度设置为 100,那么我batch_input_shape[10,100,5],我的 Y 标签的形状将是[10,3](例如 3 个 Y 标签)

但是,由于在序列之间保留了状态,那么当最终输入整个序列并保留状态时,序列的长度有什么区别?

我是否认为因为我为每个序列指定了 Y 个标签(在本例中为 10 个),所以这就是区别吗?即它基本上定义了我可以为整个序列提供多少组标签。

例如,如果我将序列长度更改为 200,那么批次形状将是[5,200,5],因此我将只为整批序列提供 5 组 Y 标签。这将极大地改变网络的学习行为,对吗?

那么,本质上,我是否将其视为一个超参数并尝试使用什么序列长度提供最佳结果?

NN 很有趣;看来您需要一种遗传算法来找到最有效的超参数组合。

0个回答
没有发现任何回复~