我们能否正确识别线性回归模型中的所有非零系数?

机器算法验证 回归 特征选择 回归策略
2022-04-08 04:02:00

我有一个关于线性回归的概念性问题。

假设我们的模型是正确的,即响应变量Y确实来自模型

Y=β0+βX+ϵ.

这里X是一个长度向量m. 假设所有好的假设都成立,例如,ϵ是正常的,我们有一组独立同分布的观察。我们知道,通过 OLS 估计器的一致性,如果我们有无限量的观察,我们将能够达到这些系数的真实值(一些系数可能为 0)。我的问题是,鉴于我们只有有限数量的数据,是否有一种方法可以在某个置信水平上正确识别那些非零系数?

根据“统计学习简介”(我同意这本书第 77 页),我们不能简单地看p与每个单独的系数相关联的值,并声称如果一个系数具有p值小于 5%,则我们得出结论,该系数在 95% 置信度下为非零。在这本书中,它说这个逻辑(看每个人pvalue) 是有缺陷的,尤其是当我们有大量预测变量时。因为如果我们有 100 个预测变量,那么大约 5%p值将偶然低于 0.05,即使真实模型的所有系数都可能为 0。这就是为什么我们需要查看F检验模型的整体显着性,即是否存在至少一个系数与 0 显着不同。

我完全同意这个论点。但是那些有什么意义p每个单独系数的值?

下一个问题是:如果F检验得出的结论是,在所有预测变量中,至少有一个系数在显着性水平上不为 0α=0.05,我们不知道哪个系数(系数是)显着不同于 0。我们知道,如果H0:所有系数都为 0 为真,那么只有α% 的机会F测试将导致p值低于 0.05,无论预测变量的数量和观测值的数量如何。所以现在如果F测试拒绝H0,在这种情况下,如果我们发现有 12 个系数p值低于α,我们可以得出结论,这 12 个系数是非零的吗?在什么置信水平?1α? 或者是其他东西?如何解读个人p值(t测试)连同整体p值(F测试)?

如果我们执行前向选择/后向消除/逐步选择,在这些方法产生的最终预测变量集中,我们可以在什么置信水平下得出相应的系数不为零的结论?

如果我们跑2m回归模型(其中m是预测变量的总数),这是否有助于我们至少在理论上识别非零系数集?在什么置信水平?

2个回答

我没有一个好的答案,但让我重新表述你们中的一些想法和问题并发表评论。

<...> 这些有什么意义p-每个单独系数的值?

一个p-value 是单独评估单个回归量的显着性时的有效工具。如果你关心是否Xi有一个非零的人口系数,你看看p- 与系数相关的值βiXi. 如果这是您唯一的问题,那么这是一个令人满意的答案。这是个人的重点p-价值观。

这就是为什么我们需要查看F− 检验模型的整体显着性,即是否存在至少一个显着不同于 0 的系数。

是的F-statistic 会告诉您所有回归变量加在一起的总体系数是否为零。但这只是你感兴趣的一个特例,如果我理解正确的话。所以F-statistic 在这里没有用——除非它足够低,可以断定在给定的显着性水平上没有足够的证据来拒绝零。

<...> 如果我们发现有 12 个系数p- 值低于α,我们可以得出结论,这 12 个系数是非零的吗?在什么置信水平?1α? 或者是其他东西?

您可以单独获取任何单个系数并得出结论1α它是非零的置信水平,但你不能对所有 12 个系数共同做到这一点1α置信水平。如果十二个系数的显着性检验是独立的,你可以说置信水平是(1α)12这(相当)低于1α.

如果我们执行前向选择/后向消除/逐步选择,在这些方法产生的最终预测变量集中,我们可以在什么置信水平下得出相应的系数不为零的结论?

这是一个棘手的问题。p-价值观和F-最终模型中的统计量取决于该模型的构建方式,即前向选择/后向消除/逐步选择机制。因此,它们不能按原样用于推断总体中的系数是否为零;必须调整这些值。可能存在一个程序(因为这个问题已经知道很长时间了),但我不记得任何相关的参考资料。

如果我们跑2m回归模型(其中m是预测变量的总数),这是否有助于我们至少在理论上识别非零系数集?在什么置信水平?

回想一下,所有具有遗漏变量的模型(在总体中具有非零系数的变量)都会受到遗漏变量偏差的影响,并且通常会出现“错误”p-values 等,因此该方法似乎有问题。

最后,请注意“不错的假设”

假设所有好的假设都成立,例如,ϵ是正常的,我们有一组独立同分布的观察。

要求ϵ——而不是观察YX——成为独立同居

运行统计算法来找到“正确”的变量几乎是徒劳的。相关的模拟在我的回归建模策略课程笔记的第 4.3 节中,网址为http://biostat.mc.vanderbilt.edu/RmS#Materials

查看任务难度的最简单方法是使用引导程序获取在多变量回归中竞争的变量的重要性排名的置信区间。同一课程笔记的第 5.4 节对此进行了演示。