对未完全分类数据的预测

数据挖掘 机器学习 分类 预测建模 预言
2022-02-12 00:34:16

我有一个用户的DataFrame,其中一些是“机器人”,它们在“is_bot”列中被标识为等于1的位,如果该位为0,则用户被视为“人类”。

问题是一些用户可能被错误地分类为“人类”而不是“机器人”,因为“机器人”是在收集数据阶段基于不完整列表的基础上识别出来的。

我将在这个部分正确的数据上训练和测试我的模型,但是当我测试它时,我会发现我的模型正确地将一些用户预测为“机器人”,即使在原始数据集中他们是“人类”。

正确预测意味着,实际上,用户是机器人,因为我手动检查了其中一些,但我无法为我的 100 万用户的整个数据集执行此操作。

即使预测可能是正确的,这也会导致模型精度低。

我该如何处理这个问题?

1个回答

您正在处理嘈杂的标签。我不会根据在该特定数据集上学习的训练模型来切换标签,因为您可能不知道哪些模式会导致您的模型决策。

否则,如果您知道错误标签的原因,您可以尝试自己构建方法,对您的数据进行健全性检查。

尽管如此,不会过度拟合的模型通常可以处理标签中的一些噪音。但您也可以尝试结合噪声方面的方法。也许看看https://stats.stackexchange.com/questions/218656/classification-with-noisy-labels