ANOVA 表中的 F 值

机器算法验证 回归 方差分析
2022-03-21 22:17:49

我试图理解的确切含义F-values 以及我们在 ANOVA 表中测试的简单线性模型R

> asdf=lm(carb~weight+protein+age)
> anova(asdf)
Analysis of Variance Table

Response: carb
          Df Sum Sq Mean Sq F value  Pr(>F)   
weight     1 181.38 181.378  5.1123 0.03804 * 
protein    1 305.40 305.400  8.6079 0.00973 **
age        1  38.36  38.359  1.0812 0.31389   
Residuals 16 567.66  35.479                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

如果我们有两个嵌套的线性模型ABp0p分别为协变量,我们使用F-从似然比检验获得的统计量:

(np1)(pp0)RSS(A)RSS(B)RSS(B)
看看我们是否喜欢B超过A. F第三行中的-value1.0812是有道理的,因为正是这个统计数据来比较完整模型和省略协变量的模型ageage我们可以证明通过这个结果省略协变量是合理的。

我很困惑F前两行的值。我看到第一个值是通过以下比率获得的:

16(RSS(null)RSS(incl.weight)RSS(fullmodel)
第二行类似。这个测试的确切假设是什么,它比使用更合乎逻辑:
18(RSS(null)RSS(incl.weight)RSS(incl.weight)
至于上面解释中的第三个值?

我认为我的问题并不完全清楚,所以我会澄清一下。假设我们进一步尝试:

> a=lm(carb~1)
> as=lm(carb~weight)
> anova(a,as)
Analysis of Variance Table

Model 1: carb ~ 1
Model 2: carb ~ weight
  Res.Df     RSS Df Sum of Sq      F Pr(>F)  
1     19 1092.80                             
2     18  911.42  1    181.38 3.5821 0.0746 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

为什么当我们anova单独使用完整模型时,我们得到F重量值与空值5.1123, 不同于3.5821在这里,这些有什么不同?

2个回答

R 中的anova函数,当仅给定 1 个模型时,会产生“顺序”平方和。这意味着每个项都针对其上方的项(模型公式的左侧)进行了调整,并且不包括下方的项(右侧)。因此,在您的示例中,您仅测试重量与截距、蛋白质 + 重量与仅重量,以及年龄 + 蛋白质 + 重量与蛋白质 + 重量。

如果您更改公式语句中术语的顺序,那么它将更改这些测试中的条件。

如果您提供anova2 个模型(其中一个嵌套在另一个模型中),那么它将给出完整和简化的测试,其中较小的模型就足够了,而更完整模型中的附加项确实有贡献。

对于age,F=1.0812=MSageMSResiduals. 其他的也一样F值替换ageweightor protein这部分排除了carb与其他两个因素相关的方差,这些因素没有直接由F有问题的测试,而使用MSResiduals从分母中的单因素 GLM 不会。因此,假设检验是关于carb您的其他因素无法解释的剩余方差是否可以通过您的给定因素来解释。更具体地说,p值表示此残差方差与您的给定因子相关的概率至少与您的样本中相关的概率相同,如果您要从总体中再次随机抽样,其中这些残差与您的因子之间没有关系的零假设是字面上的真的。至于为什么是 16 而不是 18,请记住,控制这些其他因素会花费你的自由度:每个自由度。

为了详细说明您的编辑/评论,另一种看待您的方式F=3.5821就像F=MSweightMSResiduals对于只有一个因子 ( weight) 的一般线性模型。有了那个单因素 GLMMSResiduals而不是三因素 GLMMSResiduals作为分母(因为你没有控制任何东西,因此残差是观察值 μcarb反而,μcarb作为空模型的截距),您没有排除任何weight无法解释但ageprotein可以解释的方差,因此其效果weight本身似乎不太清楚。

当您控制 和 的影响时ageprotein您可以减少模型中仍需要解释的方差量。这使得预测工作变得更容易一些weight,因为它不再需要与ageprotein解释的独立影响作斗争carb事后/回顾的意义上,你可以回头说,“好吧,难怪weight自己不能预测这些观察结果;age而且protein我的样本也不同,它们的独立影响把事情搞砸了。weight!”当然,如果您提前预期会发生这种情况,并且选择多元回归来检查您也提前指定的独立效应的假设,那么这些结果在认知、假设检验的意义上会更好。