如何找到最能区分数据集中两个群体的标准?

数据挖掘 Python 数据集 优化
2022-02-15 01:34:07

我有两个已识别群体的数据集,其中包含每个数据点的各种参数。我想找到最好的标准,即这些参数中的三个之间的关系,最能区分这两个群体。

例如,假设我们观察人口,我们希望找到身高、年龄和体重等参数之间的最佳关系,以区分男性和女性。

我想在 Python 中执行此操作,但我不知道正确的关键字。我很确定这是一个常见的优化问题,因此可能已经存在一个可以做到这一点的库。

2个回答

一种选择是决策树

您还可以尝试使用线性 SVM 并检查权重。按生成的权重对特征进行排序,以了解哪些特征更重要。

或者,只需运行统计逻辑回归模型并为每个特征生成 p 值。快速搜索显示 statsmodel 包将为您执行此操作。