机器算法验证 - 观察者之间的重复性和测量误差 - 吾爱随笔录

观察者之间的重复性和测量误差

机器算法验证方差分析错误测量可靠性协议统计

2022-04-09 14:38:00

我有 3 个观察者，每个观察者对 100 个人进行 2 次测量（长度和体重）；这些程序重复一次（即，相同的 3 名观察者对相同的 100 个人进行相同的测量），从而复制数据集（即，早读和晚读）。

找出每个观察者的测量在晚期和早期试验测量之间如何变化的最佳方法是什么？
我怎样才能最好地比较 3 位观察者的长度（或重量）测量值的接近或不同？

2个回答

您所描述的是一项可靠性研究，其中每个主题将由相同的三个评估者在两次评估。可以分别对两个结果（长度和体重，尽管我认为它们将高度相关，并且您对这种相关性如何反映在评估者的评估中不感兴趣）进行分析。估计测量可靠性可以通过两种方式完成：

最初的方法（如 Fleiss, 1987 中所述）依赖于通过 ANOVA 表对方差分量进行分析，在该表中，我们假设没有被评分者交互的主题（相应的 SS 被限制为 0）——当然，你不会看在值处，但在对应于相关效应的 MS 处； $p$
混合效应模型允许推导方差估计，将时间视为固定效应，将受试者和/或评估者视为随机效应（后者的区别取决于您是否认为您的三个观察者是从一个池中抽取或抽样的潜在的评估者与否——如果评估者的影响很小，这两种分析将对结果可靠性产生完全相同的估计）。

在这两种情况下，您都可以得出一个单一的类内相关系数，它是衡量评估可靠性的指标（根据泛化理论，我们将它们称为泛化系数），这将回答您的第二个问题。第一个问题涉及时间的潜在影响（被认为是固定影响），我在这里讨论过，启发练习中的可靠性。更多细节可以在 Dunn (1989) 或 Brennan (2001) 中找到。

我在 Github 上有一个R 示例脚本，它说明了这两种方法。我认为在模型中加入评估者效应并不难。

参考

弗莱斯，JL (1987)。临床实验的设计与分析。纽约：威利。
邓恩，G. (1989)。可靠性研究的设计和分析。牛津
布伦南，RL (2001)。泛化理论。施普林格

您需要针对长度和重量分别重复相同的过程，因为这些是完全独立的结果，具有不同的单位和测量方法。

像往常一样，我会从绘制一些探索性图表开始。在这种情况下，一组Bland-Altman（差异与平均值）图，每个观察者一个。如果每个观察者的图看起来相似，我也会做一个组合图。我会在这些图中寻找任何模式，例如差异的可变性是否与平均值保持合理一致？（如果没有，我可能会考虑一些方差稳定转换）。对于每个观察者，我会计算早期和晚期读数之间的平均差异，以量化是否存在系统差异，以及差异的标准偏差，作为量化每个观察者的测量值在晚期和早期读数之间差异的一种方式。布朗-福赛思测试。如果没有强有力的证据表明观察者之间的差异有很大差异，我会继续进行方差分析，因为我看到 chl 刚刚描述了这一点。

其它你可能感兴趣的问题

上一篇分布未知的分位数-分位数图？下一篇残差范数与什么是“好的”残差范数之间的区别