确定监督学习最重要的文档

数据挖掘 nlp 文本挖掘 特征选择 k-均值 无监督学习
2022-03-01 02:34:48

我有一些一般性/高级别的问题。

假设我正在对一些文本数据(例如推文)进行有监督的机器学习,并将文档分类到某个分类法(多类分类)。我的监督模型在测试数据上表现相当好,但我现在要做的是找到一种方法来从生产数据(非人工标记)中挑选出哪些文档,如果将其添加到训练集中将最大程度地提高该特定数据的准确性生产数据集。

这个想法是,一旦对生产数据进行了初步预测,就会运行另一个算法来确定 n 个最重要的文档(比如 500 个),如果由人工手动标记并添加到训练集中,则可以最大程度地提高准确性,假设在将 n 个文档添加到训练集中后,模型会进行第二轮预测。

所以这个过程看起来像这样:

  1. 对生产数据进行初步预测
  2. 算法运行以确定最重要的记录以提高模型的准确性(基于最有可能的特征)。
  3. 人工审核这些最重要的记录并将它们添加到训练集中
  4. 进行第二轮预测,希望有更好的准确度指标

我正在考虑在进行一些降维之后使用 K-Means 之类的东西,因为它是具有很多特征的 NLP 问题。

有没有人对这个话题有任何经验或建议?我在正确的轨道上吗?

1个回答

这通常称为主动学习

文本分类最常见的主动学习方法是随机的、基于数据的、基于模型的和基于预测的。