我有一堆文档,其中包含我想用来训练神经网络的顺序数据。它是一组大约 2-3000 个字符长的字母。我的任务是,给定这样一封信的摘录,我希望我的网络以与该信相同的样式输出合理的文本。
将我的数据呈现给神经网络的最佳方式是什么?
我在教程中看到的一种方法是将所有字母连接成一个长文本序列,并让网络在此基础上进行训练。但是随后一些训练序列将包含来自多个字母的文本。假设一个字母长 500 个字符,训练序列长度为 150,那么该字母中的最后一个训练序列将包含该字母的 50 个字符和下一个字母的 100 个字符。我怀疑这会混淆网络。
另一个想法是在每个字母之间插入一个字母结束标记,然后将它们连接起来。但同样,一些训练序列将包含字母标记的结尾,并且对它们的训练可能也会混淆网络。
第三个想法是在每个字母之间插入一个非常长的填充标记序列,以便没有真正的训练序列包含来自两个不同字母的文本。但这似乎非常浪费。例如,如果我的训练序列长 256 个字符,我将不得不在每个字母之间插入 256 个填充标记。