我有一个关于线性回归的概念性问题。
假设我们的模型是正确的,即响应变量确实来自模型
这里是一个长度向量. 假设所有好的假设都成立,例如,是正常的,我们有一组独立同分布的观察。我们知道,通过 OLS 估计器的一致性,如果我们有无限量的观察,我们将能够达到这些系数的真实值(一些系数可能为 0)。我的问题是,鉴于我们只有有限数量的数据,是否有一种方法可以在某个置信水平上正确识别那些非零系数?
根据“统计学习简介”(我同意这本书第 77 页),我们不能简单地看与每个单独的系数相关联的值,并声称如果一个系数具有值小于 5%,则我们得出结论,该系数在 95% 置信度下为非零。在这本书中,它说这个逻辑(看每个人value) 是有缺陷的,尤其是当我们有大量预测变量时。因为如果我们有 100 个预测变量,那么大约 5%值将偶然低于 0.05,即使真实模型的所有系数都可能为 0。这就是为什么我们需要查看检验模型的整体显着性,即是否存在至少一个系数与 0 显着不同。
我完全同意这个论点。但是那些有什么意义每个单独系数的值?
下一个问题是:如果检验得出的结论是,在所有预测变量中,至少有一个系数在显着性水平上不为 0,我们不知道哪个系数(系数是)显着不同于 0。我们知道,如果所有系数都为 0 为真,那么只有% 的机会测试将导致值低于 0.05,无论预测变量的数量和观测值的数量如何。所以现在如果测试拒绝,在这种情况下,如果我们发现有 12 个系数值低于,我们可以得出结论,这 12 个系数是非零的吗?在什么置信水平?? 或者是其他东西?如何解读个人值(测试)连同整体值(测试)?
如果我们执行前向选择/后向消除/逐步选择,在这些方法产生的最终预测变量集中,我们可以在什么置信水平下得出相应的系数不为零的结论?
如果我们跑回归模型(其中是预测变量的总数),这是否有助于我们至少在理论上识别非零系数集?在什么置信水平?