需要指导 - 识别风险因素

数据挖掘 机器学习 深度学习 数据挖掘 统计数据 逻辑回归
2022-02-28 14:13:21

我有一个住院患者(入院)和未入院(但作为门诊患者就诊)的患者数据集。班级比例为66:34。

我收集了所有这些患者的特征列表。

现在我的目标是找到/确定导致入院的风险因素?意味着哪些风险因素会影响患者入院?两个类别之间的风险因素有何不同?例如,高心率或某些敏感临床参数(仅举例)的患者可能会被录取,而临床参数正常的人可能不会被录取,而只是为了咨询而访问。

您能否确认我的以下步骤是否正确?

1)我有两个类(录取和未录取)2)大约 25 个输入变量 3)运行逻辑回归(Statsmodel logit 或 Scikit-learn?)我们是否总是必须预测结果类才能知道导致风险的因素入院/住院?5) 然后根据 p 值确定重要的风险因素。

虽然我的目标是确定导致入院的风险因素,但我是否仍需要预测结果类别才能了解风险因素?

你能指导我吗?

1个回答

1)我有两个类(录取和未录取)2)大约 25 个输入变量 3)运行逻辑回归(Statsmodel logit 或 Scikit-learn?)我们是否总是必须预测结果类才能知道导致风险的因素入院/住院?5) 然后根据 p 值确定重要的风险因素。

没必要,你可以只进行聚类。比删除特征直到类不再不同。在这一点上,剩下的特征是最重要的风险因素。