我在计算简单嵌套设计实验中固定效应的显着性时遇到问题。假设我们有一个简单的数据集:
individual class ind_mean value replicate
1 A -0.37651119 -1.23495005 1
1 A -0.37651119 1.24107015 2
1 A -0.37651119 -0.41977074 3
1 A -0.37651119 -1.09239410 4
2 A 0.01519211 0.15858308 1
2 A 0.01519211 0.69513257 2
2 A 0.01519211 0.05390856 3
2 A 0.01519211 -0.84685576 4
3 A -0.19937009 0.49203770 1
3 A -0.19937009 0.06218100 2
3 A -0.19937009 -1.12546256 3
3 A -0.19937009 -0.22623652 4
4 A 0.62853718 1.63792462 1
4 A 0.62853718 1.26212834 2
4 A 0.62853718 -0.52029892 3
4 A 0.62853718 0.13439466 4
5 B 2.38620939 2.67706019 1
5 B 2.38620939 1.71849546 2
5 B 2.38620939 2.31713740 3
5 B 2.38620939 2.83214451 4
6 B 0.91834030 -0.13221319 1
6 B 0.91834030 2.41841628 2
6 B 0.91834030 0.25367274 3
6 B 0.91834030 1.13348538 4
7 B 2.12694664 2.22003887 1
7 B 2.12694664 1.31492118 2
7 B 2.12694664 2.53495794 3
7 B 2.12694664 2.43786856 4
8 B 1.52867659 0.65959322 1
8 B 1.52867659 1.23188018 2
8 B 1.52867659 1.58976692 3
8 B 1.52867659 2.63346604 4
现在,如果我将 lme 模型拟合到这些数据中,我会得到
> summary(lme(value ~ class, .~1|individual, data = d))
...
Random effects:
Formula: . ~ 1 | individual
(Intercept) Residual
StdDev: 0.3643563 0.8430941
Fixed effects: value ~ class
Value Std.Error DF t-value p-value
(Intercept) 0.016962 0.2785935 24 0.060884 0.9520
classB 1.723081 0.3939908 6 4.373405 0.0047
...
一切似乎都很好。ind_mean但是,如果我将模型拟合到列上而不是原始值具有每个人的平均值,我会得到完全相同的固定参数估计值、统计数据和 p 值。
> summary(lme(ind_mean ~ class, .~1|individual, data = d))
...
Random effects:
Formula: . ~ 1 | individual
(Intercept) Residual
StdDev: 0.5571871 1.854137e-16
Fixed effects: ind_mean ~ class
Value Std.Error DF t-value p-value
(Intercept) 0.016962 0.2785935 24 0.060884 0.9520
classB 1.723081 0.3939908 6 4.373405 0.0047
...
实际上,这个 p 值与普通的 t 检验 p 值一致,我将在其中对个体的平均值进行比较。这当然是有道理的,因为在这种情况下的额外观察不会添加任何信息。然而,在原始模型的情况下,额外的观察确实增加了信息。事实上,数据是在没有任何个人影响的情况下生成的,所以正确的统计数据应该是。
> summary(lm(value ~ class, data = d))
...
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.01696 0.22597 0.075 0.941
classB 1.72308 0.31957 5.392 7.7e-06 ***
...
我的统计直觉表明,第一个模型的 p 值应该介于第三个和第二个模型之间,与第二个模型不完全相同。我的直觉错了吗?我是否以错误的方式使用该方法?有没有一些方法可以给我更合适的 p 值?