连续零膨胀数据集的正确 glmer 分布族和链接

机器算法验证 r 连续数据 lme4-nlme 零通胀
2022-04-04 18:04:23

在此处输入图像描述数据集详细信息:零是“真实的”(体积) 数据集严重偏斜(即使排除了零) 响应是连续的(体积)

谁能推荐一个我可以用于 glmer 的发行系列和链接?

或者,在这种情况下可以忽略正常性假设(如果我使用的是 lmer?) 这是物种 c 的 lmer(vol ~ status + (1|id), data=c) 残差的直方图

对于物种 m

1个回答

假设您描述的是条件分布而不是边际分布(即,如果您的响应变量是,y那么hist(mydata$y)通常不会给您想要的;您应该关注预期值周围的分布):

  • 更改链接功能对您无济于事;它确定位置对预测变量的依赖性,而不是条件分布
  • 我建议采用两阶段方法;使用二项式模型来拟合零与非零,然后使用 Gamma 模型(可能带有对数链接,它比规范反向链接更稳定)或(更灵活地)转换非零值以使它们大约正常。
  • 对于允许零的正数据,很少有分布模型(Gamma、Weibull、log-Normal 对于完全等于零的数据都给出似然度=0,至少对于某些参数方案而言 [LN 总是,Gamma 和 Weibull 用于形状<1] ; 在任何情况下,它们都不考虑零的点质量(尖峰)。
  • 类似地,一些数据转换(Box-Cox)会因非正数据而中断,其他(Yeo-Johnson)不会中断,但不会优雅地处理一堆零。
  • 两阶段模型唯一真正的缺点是零对非零和条件非零模型是完全独立的。
  • 如果你想坚持高斯假设,你可以做一些非参数(自举或置换测试)来尝试使你的结果对违反分布假设的情况具有鲁棒性。
  • 您可以尝试基于Tweedie 分布的模型;包中查看cpglmm 函数。cplm