我正在开发一个系统来将文档分类为重要/不重要。我有一个大型(200,000)个文档样本集,这些样本集已经预先标记并使用朴素贝叶斯,我在使用 80:20 的训练:测试数据分割对文档进行分类时达到了 95% 的准确率。这个结果是惊人的,我相信我可以调整系统以获得更好的结果。
但是,该系统必须能够无限期地使用。这就提出了一个问题,即被分类文件的内容,或者重要/不重要的内容会随着时间的推移而改变,因此模型必须不断发展。因此,我需要找到一种方法来训练模型而不使用预先标记的数据。我只能为此想出一种潜在的方法,但没有奏效。
我尝试的第一种方法是使用 LDA 主题建模从语料库中创建一组主题。然后我试图找到适合重要文档的主题子集和适合不重要主题的子集。不幸的是,这种方法不起作用,因为重要/非重要文档的内容过于相似,无法创建明显不同的主题。
有没有人对我如何实现这一目标或任何可以为我指明正确方向的资源提出建议?