我有两个已识别群体的数据集,其中包含每个数据点的各种参数。我想找到最好的标准,即这些参数中的三个之间的关系,最能区分这两个群体。
例如,假设我们观察人口,我们希望找到身高、年龄和体重等参数之间的最佳关系,以区分男性和女性。
我想在 Python 中执行此操作,但我不知道正确的关键字。我很确定这是一个常见的优化问题,因此可能已经存在一个可以做到这一点的库。
我有两个已识别群体的数据集,其中包含每个数据点的各种参数。我想找到最好的标准,即这些参数中的三个之间的关系,最能区分这两个群体。
例如,假设我们观察人口,我们希望找到身高、年龄和体重等参数之间的最佳关系,以区分男性和女性。
我想在 Python 中执行此操作,但我不知道正确的关键字。我很确定这是一个常见的优化问题,因此可能已经存在一个可以做到这一点的库。
一种选择是决策树。
您还可以尝试使用线性 SVM 并检查权重。按生成的权重对特征进行排序,以了解哪些特征更重要。
或者,只需运行统计逻辑回归模型并为每个特征生成 p 值。快速搜索显示 statsmodel 包将为您执行此操作。