当单尾测试通过但双尾测试未通过时

机器算法验证 z分数
2022-04-01 19:17:19

(对不起,如果这是明显的或重复的。我找不到。)

假设两名研究人员正在研究某些人群的平均身高是否发生了显着变化。研究员 1 假设发生了一些变化(双尾),研究员 2 假设它已经增加(单尾)。两者都希望 p 值 < 0.05(这在出版物中似乎很常见)。

研究人员 2 将具有较低的临界值,因此当研究人员 1 不能拒绝原假设时,她可能能够拒绝原假设。所以现在我们有一项研究表明身高显着增加,而另一项研究(使用相同的数据和 p 值)表明它们没有改变。

这很奇怪吗?我想错了吗?我弄错了什么吗?就算完全正确,难道不会引起误会吗?“[基于相同数据的]研究表明,身高没有改变,而是上升了。”

4个回答

案例 1:考虑平均身高可能增加或减少的假设,我们不能拒绝两者都没有发生的原假设。

案例 2: 考虑平均身高可能增加的假设,我们拒绝它没有增加的原假设。

两者都以相同的可接受的 I 类错误概率进行检查。(例如 5%)。

通过“撒下更大的网”(案例 1),我们需要从数据样本中获取更多信息,因为我们要求它同时在统计上“反驳/不反驳”两种效应增加 - 减少)。

假设数据样本的描述性统计表明当前的平均高度大于过去。数据已经为我们指明了方向,剩下的就是从统计上检验观察到的增长在统计上是否足够大。在这里执行双尾测试是错误的,因为它会人为地稀释数据样本的信息潜力。

正如@Aksakal 所说,这并不奇怪:很容易看出显着性水平(对于连续随机变量)等于 I 类错误的概率。

因此,您的单面和双面测试具有相同的 I 类错误概率。不同的是这两个测试的威力。如果您知道替代方案是增加,那么对于相同的 I 类错误概率,II 类错误概率在单边检验时较低(或功效较高)。

事实上,可以证明,对于给定的 I 类错误概率(并且在单变量情况下),单边检验是您能找到的最有力的检验,无论替代方案是什么。因此,这就是 UMPT,即统一最强大的测试。

这完全取决于您要测试的内容。假设您想从供应商处购买灯,而供应商说灯的使用寿命为 1000 小时(平均)。如果您想测试这些灯,那么您可能不会关心这些灯是否寿命更长,因此您将测试H0μ=1000相对H1μ<1000因为这个检验,对于同样的第一类错误概率,更有力。

另请参阅如果我们未能拒绝原假设,会发生什么?

这个结果没有什么奇怪的。这个结果对您来说看起来很奇怪的原因是因为您使用的是相同的显着性水平。

hypo 1 包括高度下降或上升的可能性,而 hypo 2 仅包括增加的可能性。因此,直观地(但不精确地)您需要比较低 2 的 0.05 显着性和低 1 的 0.1 显着性的临界值。

同样,不要从字面上理解这些,这只是为了指出您无法比较这些假设的相同重要性的临界值。

更新:如果她不能解释统计研究,你的记者不应该报道统计研究。对此没有其他办法。写下“研究 [基于相同数据] 表明身高没有改变,而是上升了”只会让这个人失去工作资格。

在许多领域(例如,您可能将新药与旧药进行比较的医学统计数据)中,惯例是默认情况下以 2.5% 进行单侧测试(而双侧测试为 5%)。而且,即使您仅假设方向上的影响,也可以进行双向测试。这种约定的发展部分是为了防止人们切换到单边测试只是为了在所需的方向上增加类型 1 错误。