我有 3 个观察者,每个观察者对 100 个人进行 2 次测量(长度和体重);这些程序重复一次(即,相同的 3 名观察者对相同的 100 个人进行相同的测量),从而复制数据集(即,早读和晚读)。
- 找出每个观察者的测量在晚期和早期试验测量之间如何变化的最佳方法是什么?
- 我怎样才能最好地比较 3 位观察者的长度(或重量)测量值的接近或不同?
我有 3 个观察者,每个观察者对 100 个人进行 2 次测量(长度和体重);这些程序重复一次(即,相同的 3 名观察者对相同的 100 个人进行相同的测量),从而复制数据集(即,早读和晚读)。
您所描述的是一项可靠性研究,其中每个主题将由相同的三个评估者在两次评估。可以分别对两个结果(长度和体重,尽管我认为它们将高度相关,并且您对这种相关性如何反映在评估者的评估中不感兴趣)进行分析。估计测量可靠性可以通过两种方式完成:
在这两种情况下,您都可以得出一个单一的类内相关系数,它是衡量评估可靠性的指标(根据泛化理论,我们将它们称为泛化系数),这将回答您的第二个问题。第一个问题涉及时间的潜在影响(被认为是固定影响),我在这里讨论过,启发练习中的可靠性。更多细节可以在 Dunn (1989) 或 Brennan (2001) 中找到。
我在 Github 上有一个R 示例脚本,它说明了这两种方法。我认为在模型中加入评估者效应并不难。
参考
您需要针对长度和重量分别重复相同的过程,因为这些是完全独立的结果,具有不同的单位和测量方法。
像往常一样,我会从绘制一些探索性图表开始。在这种情况下,一组Bland-Altman(差异与平均值)图,每个观察者一个。如果每个观察者的图看起来相似,我也会做一个组合图。我会在这些图中寻找任何模式,例如差异的可变性是否与平均值保持合理一致?(如果没有,我可能会考虑一些方差稳定转换)。对于每个观察者,我会计算早期和晚期读数之间的平均差异,以量化是否存在系统差异,以及差异的标准偏差,作为量化每个观察者的测量值在晚期和早期读数之间差异的一种方式。布朗-福赛思测试。如果没有强有力的证据表明观察者之间的差异有很大差异,我会继续进行方差分析,因为我看到 chl 刚刚描述了这一点。