机器算法验证 - 组内相关性 (ICC) 以在 R 中通过重复测量来评估评估者间的可靠性 - 吾爱随笔录

组内相关性 (ICC) 以在 R 中通过重复测量来评估评估者间的可靠性

机器算法验证 r lme4-nlme 类内相关

2022-03-21 19:01:40

我需要在“洞察力”量表上每 10 分钟估计三个评估者（A、B、C）对心理治疗患者的评估洞察力的可靠性。假设该实验持续 40 分钟，对于每位患者，每位评分者给出 4 个分数，当然，时间嵌套在患者中。

我的数据集如下所示：

patient | time | rater | insight
01      | 01   | A     | 35
01      | 02   | A     | 38
01      | 03   | A     | 31
01      | 04   | A     | 25
01      | 01   | B     | 43
01      | 02   | B     | 41
01      | 03   | B     | 41
01      | 04   | B     | 43
01      | 01   | C     | 35
01      | 02   | C     | 41
01      | 03   | C     | 44
01      | 04   | C     | 42
02      | 01   | A     | 14
02      | 02   | A     | 23
02      | 03   | A     | 18
02      | 04   | A     | 17
02      | 01   | B     | 22
02      | 02   | B     | 24
02      | 03   | B     | 17
02      | 04   | B     | 17
02      | 01   | C     | 35
02      | 02   | C     | 24
02      | 03   | C     | 18
02      | 04   | C     | 12
...

根据我对此事和先前答案的理解，我可以通过拟合以下混合模型将我的评估者之间的协议估计为“双向随机效应”ICC：

library(lme4)
fit = lmer(insight ~ (1|rater) + (1|patient/time), data=d)

Random effects:
Groups      Name        Variance Std.Dev.
time:patient (Intercept)  7.330   2.707   
patient      (Intercept) 25.418   5.042   
coder        (Intercept)  1.860   1.364   
Residual                  6.368   2.524   
Number of obs: 215, groups:  time:patient, 72; patient, 16; coder, 3

并计算患者方差+时间（25.42 + 7.33 = 32.75）与总方差（7.33 + 25.42 + 1.86 + 6.37 = 40.98）的比值

ICC = 32.75/40.98 = 0.799

尽管如此，没有任何文档/答案处理嵌套级别，而且我对统计论文/手册的数学符号并不精通，所以这个解决方案是一个最佳猜测解释。

问题：

这个程序正确吗？
这会是 Shrout 和 Fleiss (1979) 表示法中的 ICC(2,1) 还是 ICC(2,k)？

1个回答

当然，时间嵌套在患者体内

如果您的研究问题是关于场合之间的差异，您可以很容易地考虑嵌套在场合中的患者。从泛化理论（GT）的角度来看，您的重复测量确实是交叉分类的。您的“G-study”设计完全交叉：主题场合评分者。对此设计进行了深入讨论： $\times$ $\times$

Vangeneugden, T.、Laenen, A.、Geys, H.、Renard, D. 和 Molenberghs, G. (2005)。将可概括性理论的概念应用于临床试验数据，以研究变异来源及其对可靠性的影响。生物识别，61 (1), 295-304。https://doi.org/10.1111/j.0006-341X.2005.031040.x

在经典测试理论 (CTT) 中，可靠性仅仅是真实分数方差与总方差（真实 + 误差）的比率，其中“误差”可以估计为跨尺度项目、评分者或场合的不可靠方差。CTT 在真实分数中包含任何可靠的误差来源，因为它会被可靠地观察到，因此 IRR 的估计值会因将不同情况下的一些错误混淆为真实分数方差而被夸大。

GT 通过允许将误差项分解为不同的误差源来扩展 CTT，从而允许从分子中排除可靠误差（“宇宙分数方差”，类似于 CTT 中的真实分数方差）。GT 中的“普遍性”一词类似于 CTT 中的“可靠性”，它对它的含义给出了一种不那么模糊的质量：您观察到的“洞察力”分数在不同场合和/或评分者中的普遍性如何？

您提到的 Shrout & Fleiss (1979) 符号对于您的设计来说是不够的，因为他们只讨论了“双面设计”（主题评估者），正如 McGraw & Wong (1996) 一样，他们扩展了他们的工作并改进了他们的模棱两可的符号。 $\times$

McGraw, KO 和 Wong, SP (1996)。形成关于一些组内相关系数的推论。心理方法，1（1），30-46。https://doi.org/10.1037/1082-989X.1.1.30

在 GT 中，单个“泛化系数”（G-coef）是一个 ICC，它可以同时量化您在评分者和场合中观察到的分数的可靠性/泛化性。例如，如果对于每个主题，您选择通过对所有评分者和次（）的重复测量进行平均来表示他们的洞察力，那么这些综合分数的可靠性将是： $N_r=3$ $N_o=4$ $N_r \times N_o = 12$

G-coef = \frac{σ_{s}^{2}}{σ_{s}^{2} + \frac{σ_{s r}^{2}}{N_{r}} + \frac{σ_{s o}^{2}}{N_{o}} + \frac{σ_{s r o}^{2}}{N_{r} \times N_{o}}}

$\text{G-coef} = \frac{\sigma^2_s}{\sigma^2_s + \frac{\sigma^2_{sr}}{N_r} + \frac{\sigma^2_{so}}{N_o} + \frac{\sigma^2_{sro}}{N_r \times N_o}}$

这是 Shrout & Fleiss (1979) 提出的 2 面 ICC(2,k) 的 3 面概括，McGraw & Wong (1996) 更描述性地标记为 ICC(C,k)，因为它是相对一致性，而不是绝对的 A协议。但这是一个 3 路交叉设计，因此没有单一的“k”维度。这是您要拟合的模型：

insight = μ + β_{p} + β_{r} + β_{o} + β_{p r} + β_{p o} + β_{r o} + β_{p r o}

$\text{insight}=\mu + \beta_p + \beta_r + \beta_o + \beta_{pr} + \beta_{po} + \beta_{ro} + \beta_{pro}$

其中是大均值；下标表示效果因患者、评估者或场合（时间）而异；并且最高阶项（）总是与任何其他测量误差源混淆。可以使用估计方差分量，其中最高阶项将只是默认残差 ( )： $\mu$ $\beta_{pro}$ lme4 $\varepsilon$

lmer(insight ~ 1 + (1|patient) + (1|rater) + (1|time) + 
                   (1|patient:rater) + (1|patient:time) + (1|rater:time),
     data=d)

事实上，R 包gtheory可用于自动计算 G-coef，使用lme4语法指定。

如果您认为仍然只计算一个误差维度（IRR 或重测信度）的可靠性是相关的，则需要将另一个误差方差源（您忽略的维度）从分母也添加到分子。在 Vangeneugden 等人中找到这些公式。(2005, p. 298, Eqs. 9 和 10)，他们还讨论并提出了绝对一致性 ICC 的公式（GT 中的“可靠性系数”），以防您发现那些与您将如何使用观察到的分数相关的公式。但请注意，他们不会将任何误差除以，后者估计个人分数的可靠性（即，如果您将来不打算使用重复测量，则相关，因此在实践中不会计算平均值来代表每个患者的洞察力） . $N$

其它你可能感兴趣的问题

上一篇工具变量：在哪些情况下，平均治疗效果（ATT）和局部平均治疗效果（LATE）相似？下一篇可以对 PCA 值执行 PerMANOVA 吗？