多标签文本分类方法

数据挖掘 nlp
2022-03-15 10:25:32

我想制作一个分类器,用正确的标签标记语料库中的每个文本。我可以使用 sklearn 多标签文本分类直接进入 ML,甚至可以使用 LSTM 进入 DL。但是从简单开始,首先使用基于规则的系统不是更好吗?这将帮助我理解问题,并设置基准准确度分数。然后我可以逐渐使我的算法变得更复杂(ML,DL),只有助于提高精度和召回率。

1个回答

所以,你问的是如何开发这个可以对文本进行分类的系统/模型。是的,实例化一个“基线”或虚拟模型是一个好主意,它可以是基于规则的,也可以随机地为某段文本分配一个标签。从这个虚拟模型中,是的,您可以使用 RNN/LSTM 进行多输入(例如文本中的单词)到单个输出概率作为更复杂的模型,是的,您可以比较验证和测试准确性,F1-score等,以查看模型对文本进行分类的功能的变化是否保证了模型的改进。