如何解释相关性以及多元线性回归的系数?£

数据挖掘 统计数据 线性回归 多元分布 解释
2022-02-24 01:15:03

我有 10000 个样本。有 4 个自变量和 1 个因变量。

自变量均以 0 均值为中心。

在此处输入图像描述

我发现每个变量之间的相关系数如下:

在此处输入图像描述

我使用了线性回归模型,下面是该模型的摘要:

在此处输入图像描述

现在,根据线性回归模型中预测变量的系数,我被要求找到显着的预测变量。

仅基于相关值,我认为 X 4 将是重要的预测变量,但它的回归系数完全不同。(x4 在 lm 汇总输出中具有最小的系数值)。你能帮我理解识别重要预测因子的正确方法是什么吗?

此外,此外,即使我从 lm 模型中删除 x4 变量,残差标准误差仍然保持不变,这有点重申它不是一个重要的预测因子的事实?

我的理解在这里正确吗?

此外,我运行了 R 中可用的 VarImp 函数,它再次返回了一个较小的 x4 值。

> varImp(lm_df, scale = TRUE)
     Overall
x1 33.673993
x2 34.858260
x3 33.820908
x4  1.969445
2个回答

相关系数表显示了数据集中变量之间的成对相关性:在从 0(无相关性)到 1(完全相关性)的范围内,一个变量的变化在多大程度上解释了另一个变量的变化?

另一方面,回归表中的系数描述了 y 和不同的 x 之间的关系,所有其他条件都相等例如,x1 的系数估计告诉您,假设 x2 到 x4 保持不变,当 x1 变化 1 个单位时,y 预计会变化 0.959 个单位。要了解您的 y 和不同 x 之间的关系,这些系数通常比成对相关更能提供信息。

除了可用于评估预测变量的实质性显着性的效应强度(位点是系数)外,回归表还提供了用于判断预测变量的统计显着性的p 值。低 p 值(通常低于 0.05)表明具有统计显着性(意味着在零假设下观察数据的概率很低)。

因此,查看您的回归输出,您可以看到所有四个预测变量都与 y 具有统计显着的关系X1 到 x3 比 x4 更显着,无论是在统计显着性还是实质性显着性方面。x4 和 y 之间的强成对相关性与小回归系数之间的对比是由于 x 之间的多重共线性: x4 与其他预测变量协变,正是这种协方差解释了与 y 的相关性。

给定一个非常大的样本,两个变量(X4 和 y)之间的相关系数(0.58)在统计上是显着的。多重回归模型证实了这种正相关关系

结果。您的模型产生的 t 值 = 1.969,在 alpha = .05 时具有统计显着性。它实际上在 .0489 处显着(参见 pr 多于 t )

“仅基于相关值,我认为 x4 将是显着的预测因子,但多元线性回归中的预测因子系数完全不同。(x4 在 lm 汇总输出中具有最小的系数值。”
回答:您解释的方式回归系数是完全幼稚和不正确的。回归系数的绝对值表示效应大小而不是t-统计量。反映推断值的是t-统计量。