如何将模型应用于训练数据以识别错误标记的观察结果?

数据挖掘 机器学习 分类 随机森林
2022-02-21 17:56:26

我有一个人员列表、关于这些人的属性(身高、体重、血压等),以及一个名为has_heart_issues. 该数据代表全部数据,我正在尝试确定被列为“否”has_heart_issues的人是否与被列为“是”的人相似。

为了回答这个问题,我将数据分为训练(70%)和测试(30%)。我在训练中训练了一个随机森林模型,并在测试中对其进行了测试。结果很好,但我不知道如何应用于人群,因为我将大部分用于培训。有什么方法可以将模型应用于完整数据集(包括训练),因为我有完整数据集的标签开始?从本质上讲,我试图确定是否有人被贴错标签。

可以将模型应用于训练数据以查找“错误标记”的记录吗?

1个回答

您可以通过检查对训练数据的预测来检查一件事。这就是模型训练例程的数值收敛。模型准确性的任何验证都只能使用保留数据或测试数据——这就是交叉验证的全部要点。通过 n 次交叉验证优化模型架构和超参数后,标准过程是在整个数据集上训练单个生产模型。那时,您已经从训练集中获得了所有可以获取的信息。