数据挖掘 - 如何找到最能区分数据集中两个群体的标准？ - 吾爱随笔录 - 问答

如何找到最能区分数据集中两个群体的标准？

数据挖掘 Python 数据集优化

2022-02-15 01:34:07

我有两个已识别群体的数据集，其中包含每个数据点的各种参数。我想找到最好的标准，即这些参数中的三个之间的关系，最能区分这两个群体。

例如，假设我们观察人口，我们希望找到身高、年龄和体重等参数之间的最佳关系，以区分男性和女性。

我想在 Python 中执行此操作，但我不知道正确的关键字。我很确定这是一个常见的优化问题，因此可能已经存在一个可以做到这一点的库。

2个回答

一种选择是决策树。

您还可以尝试使用线性 SVM 并检查权重。按生成的权重对特征进行排序，以了解哪些特征更重要。

或者，只需运行统计逻辑回归模型并为每个特征生成 p 值。快速搜索显示 statsmodel 包将为您执行此操作。

其它你可能感兴趣的问题

上一篇当真实的类分布不平衡时，类权重会鼓励过度拟合吗？下一篇确定哪种深度学习模型架构更好