数据挖掘 - 使用深度学习预测文本索引 - 吾爱随笔录

我想预测文本的开始和结束索引，其中使用了某种类型的宣传技术，如涂抹、辱骂、加载语言等。数据集中的一些示例是：

['THERE ARE ONLY TWO GENDERS\n\nFEMALE \n\nMALE\n', 'This is not an accident!', "SO BERNIE BROS HAVEN'T COMMITTED VIOLENCE EH?\n\nPOWER COMES FROM THE BARREL OF A GUN, COMRADES.\n\nWHAT ABOUT THE ONE WHO SHOT CONGRESSMAN SCALISE OR THE DAYTON OHIO MASS SHOOTER?\n"]

[[[0, 41]], [], [[47, 83], [3, 14], [33, 41], [163, 175], [85, 93], [0, 176]]]

因此，0 和 41 表示第一个示例中的整个文本属于某个类别，即从索引 0 到 41。
下一个示例中没有任何奇怪之处。
然后我们有从 47 到 83 的“口号”，即“力量来自枪管”，对于 3 到 14，有“BERNIE BROS”，突出显示为“名称调用”。

我已经尝试在这里使用回归与 LSTM 模型，但结果非常糟糕，这是我的预期。我正在寻找解决这个问题的正确方法。任何帮助将不胜感激。谢谢！