数据挖掘 - 确定监督学习最重要的文档 - 吾爱随笔录

我有一些一般性/高级别的问题。

假设我正在对一些文本数据（例如推文）进行有监督的机器学习，并将文档分类到某个分类法（多类分类）。我的监督模型在测试数据上表现相当好，但我现在要做的是找到一种方法来从生产数据（非人工标记）中挑选出哪些文档，如果将其添加到训练集中将最大程度地提高该特定数据的准确性生产数据集。

这个想法是，一旦对生产数据进行了初步预测，就会运行另一个算法来确定 n 个最重要的文档（比如 500 个），如果由人工手动标记并添加到训练集中，则可以最大程度地提高准确性，假设在将 n 个文档添加到训练集中后，模型会进行第二轮预测。

所以这个过程看起来像这样：

我正在考虑在进行一些降维之后使用 K-Means 之类的东西，因为它是具有很多特征的 NLP 问题。

有没有人对这个话题有任何经验或建议？我在正确的轨道上吗？