我有一个用户的DataFrame,其中一些是“机器人”,它们在“is_bot”列中被标识为等于1的位,如果该位为0,则用户被视为“人类”。
问题是一些用户可能被错误地分类为“人类”而不是“机器人”,因为“机器人”是在收集数据阶段基于不完整列表的基础上识别出来的。
我将在这个部分正确的数据上训练和测试我的模型,但是当我测试它时,我会发现我的模型正确地将一些用户预测为“机器人”,即使在原始数据集中他们是“人类”。
正确预测意味着,实际上,用户是机器人,因为我手动检查了其中一些,但我无法为我的 100 万用户的整个数据集执行此操作。
即使预测可能是正确的,这也会导致模型精度低。
我该如何处理这个问题?