使用深度学习预测文本索引

数据挖掘 lstm 多标签分类 顺序
2022-02-13 21:14:22

我想预测文本的开始和结束索引,其中使用了某种类型的宣传技术,如涂抹、辱骂、加载语言等。数据集中的一些示例是:

['THERE ARE ONLY TWO GENDERS\n\nFEMALE \n\nMALE\n', 'This is not an accident!', "SO BERNIE BROS HAVEN'T COMMITTED VIOLENCE EH?\n\nPOWER COMES FROM THE BARREL OF A GUN, COMRADES.\n\nWHAT ABOUT THE ONE WHO SHOT CONGRESSMAN SCALISE OR THE DAYTON OHIO MASS SHOOTER?\n"]

[[[0, 41]], [], [[47, 83], [3, 14], [33, 41], [163, 175], [85, 93], [0, 176]]]

因此,0 和 41 表示第一个示例中的整个文本属于某个类别,即从索引 0 到 41。
下一个示例中没有任何奇怪之处。
然后我们有从 47 到 83 的“口号”,即“力量来自枪管”,对于 3 到 14,有“BERNIE BROS”,突出显示为“名称调用”。

我已经尝试在这里使用回归与 LSTM 模型,但结果非常糟糕,这是我的预期。我正在寻找解决这个问题的正确方法。任何帮助将不胜感激。谢谢!

1个回答

您可以使用“蒙面语言模型”(MLM)来预测一段(短)文本或句子是否属于某个类(我猜标签可以从索​​引中得出)。使用 LSTM,您只能在一个方向(从开始到结束)进行,而使用双向编码器(类似 BERT 的模型),您可以双向进行,这是一个很大的改进。

原始BERT在学习过程中使用 MLM 以及“下一句预测”(NSP)。但是,最后带有分类的 MLM 可能就足够了。传销的工作方式是,您首先通过“屏蔽”随机单词来了解文本的性质并尝试预测它们。这对于对文本属于哪种类别进行最终(下游)分类非常有帮助。

你也可以使用预训练的BERT模型并对其进行微调。查找文本的相关部分是 BERT 可以做的下游任务之一。