我一直在使用术语选择偏差来指代(例如)具有某些预先存在的特征的学校比其他学校更有可能被包括在(例如)教师培训计划中,并且这些背景特征可能会影响他们的结果,使评估干预是否产生影响变得更加困难。
我现在看到(例如在维基百科上)它最常用于指代研究样本的选择差异概率,而不是项目治疗组的选择差异概率。
在任何一种情况下都可以正确使用它吗?如果不能,由于某些类型的单元比其他单元更容易被处理而导致的偏差的正确术语是什么?或者这应该被称为“混淆”而不是偏见?
我一直在使用术语选择偏差来指代(例如)具有某些预先存在的特征的学校比其他学校更有可能被包括在(例如)教师培训计划中,并且这些背景特征可能会影响他们的结果,使评估干预是否产生影响变得更加困难。
我现在看到(例如在维基百科上)它最常用于指代研究样本的选择差异概率,而不是项目治疗组的选择差异概率。
在任何一种情况下都可以正确使用它吗?如果不能,由于某些类型的单元比其他单元更容易被处理而导致的偏差的正确术语是什么?或者这应该被称为“混淆”而不是偏见?
我认为这两个实际上非常相似。在实验环境中,您正在比较治疗组和对照组的一些平均结果,并且您担心可能有一些具有某些观察到的特征的个体仅出现在参与者或非参与者中(或更频繁地出现)和/或这种情况正在发生具有一些未观察到的特征,这是一个更难的问题。
在典型的调查设置中,您实际上是在比较低教育 (C) 和高教育 (T) 女性的工资,并且您担心您没有观察到低教育群体中具有大量负面不可观察的女性,因为她们不是在劳动力中。教育可能是多价值的,而不是二元的,但这种比较练习的精神是相同的。
在这两种情况下,您都在使用对照组或低教育组的平均结果来代替在没有治疗或教育的情况下治疗组或高等教育组会发生的事情,这是您看不到的.
我喜欢@DimitriyV.Masterov 的回答(+1);它们非常相似,您可能可以将“选择偏差”用于“选择方案治疗组的差异概率”。但是,我对这种用法有些不舒服,并认为使用不同的措辞可能会更好。
您并没有真正选择人进入治疗组,而是分配他们。如果一个人被分配到治疗组的概率不是独立于他们的属性(例如,更健康的患者更有可能进入对照组),那么我认为最好说分配是混淆的。
另一方面,如果您的研究本质上是观察性的,则根本没有作业。所有变量的状态,无论是分类(生病/健康)还是连续(体重),都应理解为内生/与未知混杂因素相关。在我们发现的世界中(也就是说,没有我们通过操纵变量的级别并将人们分配到这些级别来外生地作用于世界),一切最终都以某种方式与一切相关。很可能在选择您的样本时,您更有可能吸引具有某些特性的人而不是具有不同特性的人,因此(例如)您的样本中节食减肥的人的比例高于人口中的比例(并且运动减肥的人的比例低于人口中的比例)。但这不是任务。
Selection Bias occurs when there is no appropriate randomization achieved while selecting individuals, groups or data to be analysed.
选择偏差意味着获得的样本并不完全代表实际打算分析的人群。