我有一个约 4.7K 记录的数据集,专注于具有 60 个特征的二进制分类。第 1 类有 1554 条记录,第 2 类有 3558 条记录。
现在我想找出影响疾病存在与否的结果的风险因素。这是一个监督学习问题
我了解人们进行匹配以确保两个类具有相似的分布,以便比较结果可靠。
1)我看到人们通常根据年龄等人口统计数据进行匹配。如果我们保持年龄不变,是否可以推断出哪些因素真正影响结果。我这样理解正确吗?
2)如果我将所有变量都放在逻辑回归模型中,那不是混淆了吗?为什么我必须进行匹配?
3) 在 60 个特征中,我想基于 4 个变量进行匹配。如何为我的完整数据集执行此操作?有没有python包可以做到这一点?
有人可以帮助我如何做到这一点吗?