有什么比使用困惑更好的文本分类解决方案

数据挖掘 分类 nlp
2022-03-12 23:51:49

为了对一些文本进行分类,我在训练集上训练一个语言模型,然后选择在给定测试样本上具有最低困惑度的模型作为该样本的类别。我想知道除了困惑还有什么其他的方法或措施可以使用。

1个回答

您可以评估预构建的语言模型。优点是:

  1. 这些模型通常在非常大的文本语料库(例如来自数十亿网页的文本快照)上进行训练。
  2. 它需要很少的开发工作来测试给定分类问题的模型。

例子 :

https://spacy.io/usage/examples

https://uber.github.io/ludwig/examples/