我想预测文本的开始和结束索引,其中使用了某种类型的宣传技术,如涂抹、辱骂、加载语言等。数据集中的一些示例是:
['THERE ARE ONLY TWO GENDERS\n\nFEMALE \n\nMALE\n', 'This is not an accident!', "SO BERNIE BROS HAVEN'T COMMITTED VIOLENCE EH?\n\nPOWER COMES FROM THE BARREL OF A GUN, COMRADES.\n\nWHAT ABOUT THE ONE WHO SHOT CONGRESSMAN SCALISE OR THE DAYTON OHIO MASS SHOOTER?\n"]
[[[0, 41]], [], [[47, 83], [3, 14], [33, 41], [163, 175], [85, 93], [0, 176]]]
因此,0 和 41 表示第一个示例中的整个文本属于某个类别,即从索引 0 到 41。
下一个示例中没有任何奇怪之处。
然后我们有从 47 到 83 的“口号”,即“力量来自枪管”,对于 3 到 14,有“BERNIE BROS”,突出显示为“名称调用”。
我已经尝试在这里使用回归与 LSTM 模型,但结果非常糟糕,这是我的预期。我正在寻找解决这个问题的正确方法。任何帮助将不胜感激。谢谢!