在线性混合效应模型中包括序数自变量(使用 R 中的 lme4 包)

机器算法验证 r 混合模式 数据转换 序数数据 lme4-nlme
2022-03-25 19:49:19

我正在分析来自 500 头小牛队列的数据,调查疾病对生长的影响。

我的结果变量是正态分布的连续数据。我正在使用分层模型,小牛嵌套在农场内,并测试疾病的长期影响。

我遇到的问题是如何包含疾病数据。我有关于小牛患病周数和总分超过已验证诊断阈值的变量

小牛疾病数据的直方图

由于我对上传图片没有经验,以下是上述数据的列表结果:


Disease Duration (weeks) 0   1    2   3   4   5   6 
Frequency               266 128  50  33   8   5   2

Total Score  0   1   2   3    4   5   6   7   8   9  10  13  14  15 
Frequency   266  88  51  30  20  13   2   6   4   5   3   1   2   1 

显然,这个数据远非正常。但是有很多级别可以使用虚拟编码的分类变量,我认为序数比例可以更好地代表数据。您认为将这些数据作为自变量包含在我的 LME 模型中的最佳方式是什么?(注意,我不将两者都包含在同一模型中,只是其中一个)

当我包含这些变量时,模型确实返回结果而没有收敛错误或其他警告,但感觉不是很好的做法,我不确定我可以做什么样的转换来使这些数据更好(例如日志转换留下数据看起来很奇怪,原始数据的图使它看起来最有可能是线性关系)

这是我想改进的一个例子:

(adj_w_63 - 小牛体重,week_brd - 患病周数(如上所述),rid - 一个正态分布的连续变量,milksolids_total - 一个正态分布的连续变量)

library(lme4)
model1<-lmer(adj_w_63 ~ weeks_brd + rid + milksolids_total + (1|farm_ac),
 data=comp)
summary(model1)

Linear mixed model fit by REML ['lmerMod']
Formula: adj_w_63 ~ weeks_brd + rid + milksolids_total + (1 | farm_ac)
   Data: comp

REML criterion at convergence: 3247

Scaled residuals: 
    Min      1Q  Median      3Q     Max 
-3.5180 -0.5525 -0.0458  0.5945  6.1674 

Random effects:
 Groups   Name        Variance Std.Dev.
 farm_ac  (Intercept) 30.10    5.487   
 Residual             83.37    9.131   
Number of obs: 443, groups:  farm_ac, 11

Fixed effects:
                 Estimate Std. Error t value
(Intercept)      68.06279    3.30996  20.563
weeks_brd        -1.00200    0.42089  -2.381
rid               0.11010    0.04981   2.210
milksolids_total  0.19904    0.07679   2.592

Correlation of Fixed Effects:
            (Intr) wks_br rid   
weeks_brd   -0.174              
rid         -0.285  0.141       
mlkslds_ttl -0.795  0.038 -0.016

非常感谢你的帮助。

1个回答

(这个答案通常适用于[广义]线性模型,而不仅仅是混合模型。)

这个关于 SO 的答案讨论了对具有序数独立(预测)变量的线性模型的解释。这里有两种合理的方法,不清楚哪种方法最好:

  • 将分数视为数字。优点:简单,简约(只需要一个参数)。缺点:假设每对连续分数之间的变化程度是相同的。
  • 将分数转换为有序因子在 R 中,这会自动(默认)使用正交多项式对比这将使用与将分数视为无序因子相同数量的参数(并将给出相同的总体预测、拟合优度等),但将在线性、二次、三次方面给出更多可解释的参数。 ...条款。也许可以减少项的数量(相当于使用低阶正交多项式)。优点:不对差异的大小做任何假设。缺点:不那么吝啬。

根据您的目标(预测、假设检验等),您可能能够找到某种程度的中间复杂性(通过正则化/惩罚,或者更粗略地通过恢复到低阶正交多项式,或通过拟合使用分数的样条函数的广义加法模型),但上面的两个选项是最简单的。