实际意义,尤其是百分比:“标准”度量和阈值

机器算法验证 假设检验 统计学意义 多重比较
2022-04-01 06:48:01

我和许多人一样,不喜欢统计显着性检验。我更愿意衡量“实际意义”/效果大小。

问题是我不知道这样做的“标准”方式。很多人说没有标准的方法来衡量实际意义——这完全取决于问题。我完全同意,但我需要能够引用权威人士来支持我正在做的事情。我认为这就是统计显着性检验如此普遍的原因——有一种标准的方法:p < .05。所以任何人都可以不假思索地做到这一点。使实际意义测试更受欢迎的方法可能是采取类似的方法。

更具体地说,我经常需要查看两个百分比是否实际上彼此不同。这样做的好方法是什么 - 具有权威引用且易于直观解释的东西?

赔率?用它来衡量实际意义的好引文是什么?在健康/社会科学方面将是一个加号。赔率比很难直观地呈现。对此有什么想法?

更进一步,对于 OR(或您喜欢的任何衡量标准),一个好的“标准”/“神奇”阈值是什么?像 0.05 用于统计显着性检验。我知道,我知道,这取决于问题。但是有没有一个引用很好的“标准”?

4个回答

我做了很多统计咨询,通常会问“我需要招募多少科目?” 我总是根据“临床”或“实际”意义来解决样本量问题。为了解决这个问题,我要求他们描述他们想要声明组之间的差异有多大的差异“效应大小”。您所说的“统计”显着性检验实际上是一种实际显着性检验,因为即使临界值是根据标准统计显着性水平(例如 0.05)设定的,样本量也取决于临床或实际检测能力显着差异。没有标准的方法可以做到这一点,因为所谓的临床显着水平是主观的,而且是正确的。

我不认为有任何实际意义的测试,因为它真的取决于领域或问题。对不起。

例如,如果您发现实施某项政策会使收入增加 0.0000001 美元(一些可以忽略不计的小数额),即使这可能具有统计显着性,即 p 值 < 0.05,但实际上该政策的影响可以忽略不计,因此实际上并非如此重要的。但判断结果是否具有实际意义的唯一方法是对问题有很好的理解。在其他一些情况下,0.0000001 的系数可能非常具有实际意义。

所以基本上,首先你使用统计工具来查看某些东西是否具有统计意义,然后使用你对该领域的知识来查看某些东西是否具有实际意义。这当然是理想的情况。人们经常试图假装他们的结果在统计上显着时实际上是显着的。

更有可能的是,如果你正在写一篇论文,那么你就很可能会达到你所需要的具有实际意义的东西。您已经阅读了文献并研究了主题,人们明确或隐含地说过,实际意义重大的数量是多少。您需要做的就是引用该文献并在您的文章中使用它。如果您只想了解效果大小的效用,只需谷歌搜索效果大小和您的领域(也许是 cohen,1962 年)。通常有针对不同学科的效应量提升论文。您还可以将 Cohen 1962 视为如何解决此类问题的示例(但不是在您的案例中实际显着的效果大小的示例 - 这是不幸的典型用法)。

没有优势比是黄金标准,但我有点惊讶你很难解释。我想给予大多数教科书治疗并不奇怪。投注一直使用赔率比,人们对此很熟悉。如果您需要解释它,请使用该类比。“Come by Chance”赢得比赛的几率是 3:1(或 3)。大多数人都知道这在支付中意味着什么。他们可以看到这是马预计输掉比赛的次数 (3) 与它将获胜的次数 (1) 或 75% 的时间。

当然,如果这不仅仅是某个比例,而是像诊断优势比之类的东西,那么最好也用特异性和敏感性来表达事物。在这种情况下(以及其他重要的类似情况),仅优势比就会忽略偏差。

进一步阅读后,这是我自己的问题的一个可能答案。如果您有其他相同的答案,请同时发布。

Cohen's h 来自 Cohen (1988)。 h=|2arcsinp12arcsinp2|

效果大小的限定,免责声明它们在其他学科中可能不同,

  • h=0.2:“小”
  • h=0.5:“中”
  • h=0.8:“大”

在 R 中,http://rss.acs.unt.edu/Rdoc/library/pwr/html/ES.h.html