我有一个人员列表、关于这些人的属性(身高、体重、血压等),以及一个名为has_heart_issues. 该数据代表全部数据,我正在尝试确定被列为“否”has_heart_issues的人是否与被列为“是”的人相似。
为了回答这个问题,我将数据分为训练(70%)和测试(30%)。我在训练中训练了一个随机森林模型,并在测试中对其进行了测试。结果很好,但我不知道如何应用于人群,因为我将大部分用于培训。有什么方法可以将模型应用于完整数据集(包括训练),因为我有完整数据集的标签开始?从本质上讲,我试图确定是否有人被贴错标签。
可以将模型应用于训练数据以查找“错误标记”的记录吗?