50个独立变量的问题有什么好的一般回归技术

数据挖掘 回归 统计数据 数据科学模型
2022-02-23 21:52:10

我是数据科学和统计学的新手。我遇到了这个问题,它有 50 个自变量和一个因变量,并试图确定好的回归技术。以下是我执行的流程图:

数据探索 -> 相关矩阵 -> 降维 -> PCA(降维) -> 基本线性回归技术。

如果有其他更好的技术或程序,有人可以指导我。

1个回答

这绝不是一个详尽的答案,但它肯定会给你一个起点Python——

数据探索

开始Pandas Profiling它将为您提供变量的 HTML 报告。如果数据质量良好,它将提供对填充率的一些见解,具体取决于变量类型,每个变量的一些统计信息

相关矩阵

pandas 分析报告包括相关矩阵。但是,如果您希望手动计算,请使用pd.corr(). 您可以改变参数以获得不同的相关指标,例如‘pearson’, ‘kendall’, ‘spearman’

降维 -> PCA(降维)

有很多方法可以做到这一点。请记住,如果您只是在寻找准确性而不关心如何X影响y,(1)是一个可选步骤(也适用于(2))。

  1. 分析相关矩阵并用于VIF转储具有高相关性的变量
  2. 用于降维的因子分析/ PCA
  3. 使用LASSO拟合模型,检查系数以及那些可能被认为是0或将要0被认为是弱指标并且可以消除的系数。
  4. 保留所有 50,并使用岭回归并改变 alpha 参数以微调准确性(或您尝试优化的任何指标)
  5. 如果模型似乎仍然不稳定,请尝试使用 sklearn 的多项式特征来烹饪非线性特征,正则化并重复。
  6. 可能是现实世界中最重要的变量,询问领域专家他/她认为哪些可能是重要变量

基本线性回归技术

  1. 使用超参数以获得良好的交叉验证/测试分数是基本线性回归模型的关键。
  2. 从这里这里尝试尽可能多的技术