我是数据科学和统计学的新手。我遇到了这个问题,它有 50 个自变量和一个因变量,并试图确定好的回归技术。以下是我执行的流程图:
数据探索 -> 相关矩阵 -> 降维 -> PCA(降维) -> 基本线性回归技术。
如果有其他更好的技术或程序,有人可以指导我。
我是数据科学和统计学的新手。我遇到了这个问题,它有 50 个自变量和一个因变量,并试图确定好的回归技术。以下是我执行的流程图:
数据探索 -> 相关矩阵 -> 降维 -> PCA(降维) -> 基本线性回归技术。
如果有其他更好的技术或程序,有人可以指导我。
这绝不是一个详尽的答案,但它肯定会给你一个起点Python——
数据探索
开始Pandas Profiling。它将为您提供变量的 HTML 报告。如果数据质量良好,它将提供对填充率的一些见解,具体取决于变量类型,每个变量的一些统计信息
相关矩阵
pandas 分析报告包括相关矩阵。但是,如果您希望手动计算,请使用pd.corr(). 您可以改变参数以获得不同的相关指标,例如‘pearson’, ‘kendall’, ‘spearman’
降维 -> PCA(降维)
有很多方法可以做到这一点。请记住,如果您只是在寻找准确性而不关心如何X影响y,(1)是一个可选步骤(也适用于(2))。
VIF转储具有高相关性的变量0或将要0被认为是弱指标并且可以消除的系数。基本线性回归技术