如何决定是使用 GLMM 还是使用 LME?以及如何选择随机/固定效果?

机器算法验证 r 混合模式 lme4-nlme 重复测量 随机效应模型
2022-03-25 03:28:04

所以我读了很多教科书和很多 R 教程,我在这里发疯了。您如何决定使用哪种型号?我真的希望这有经验,但是随着现代技术的出现以及支持和反对转换等的证据,任何人应该如何实际创建一个产生正确结果的模型?

我只想知道在两种处理(低和高大象影响)之间用木头覆盖的地块中的点数是否存在显着差异。我还想知道是否有任何影响显着。每个站点有 5 个地块 (1,2,3,4,5)。2013年每个小区都统计了被木覆盖的点数,2014年和2015年又统计了一次。所以我有重复的措施。

我的响应变量是Number= 用木头覆盖的点数我的固定效应或预测变量是Year(2013,2014,2015) 和Site(High and Low) 来解释重复测量,Year也是Site我的随机效应。或者这实际上应该是Plot(1,2,3,4,5)?

第一种选择是使用 GLMM,因为我既有随机效应也有固定效应;因为我有计数数据,所以我选择了泊松族:

model<-glmer(Number~Year*Treatment+(1|Year:Treatment),data=data,family=poisson)

首先,在同一个模型中可以Year同时Treatment作为固定效应和随机效应吗?我没有包括情节,因为我假设重复测量实际上是 YearL 是正确的吗?其次,如果我的数据不是正态分布的,我应该对其进行日志转换然后运行 ​​GLMM 吗?

还是我应该不对其进行转换,而是使用线性混合效应模型 (LME)?

model1<-lmer(Number~Year*Treatment+(1+Year|Treatment),data=data,REML=FALSE)

对于 LME,我应该规定分配吗?还是自动使用高斯分布(正态分布)?再次,可以Year并且Treatment既是固定效应又是随机效应?

这实际上可能是非线性的吗?

1个回答

如果您将计数数据作为响应变量,那么您应该使用 glmm。只要不过度分散或零膨胀,泊松模型是合适的,在这种情况下,您将需要考虑其他 glmms。

如果我正确理解了描述,那么在 2 个站点有 3 个重复测量,每个站点有 5 个地块。所以地块嵌套在站点内,但是您没有足够的站点或地块来将它们视为嵌套使用通常的语法(1|site/plot),因此您可以使用站点和地块的组合作为分组因子(1|site:plot)治疗显然是一种固定效应,没有理由将其视为随机的。只有3年,所以这也可以视为固定的。

所以我会建议一个模型,例如:

glmer(Number~Year*Treatment+(1|site:plot),data=data,family=poisson)