我问过受试者程序 A 是否比程序 B 更好。稍微多一点的人说是(131 名受试者中的 56%)。我怎么知道这个答案是否告诉我程序 A 确实比 B 好,而不是学生只是随机化他们的答案?
鉴于 131 名受访者中有 56% 的人这么说,A 真的比 B 好吗?
机器算法验证
假设检验
二项分布
部分
2022-03-25 06:17:16
2个回答
首先,@NuclearWang 是正确的。如果您的调查如所述,您正在了解人们更喜欢哪种程序,而不是更好的程序(出于某些未指定的目的)。我不认为这是一个迂腐的观点,衡量我们打算衡量的内容很重要。
这里的统计数据非常简单。您想知道您的数据是否表明受访者没有随机猜测。标准方法是假设他们是随机猜测的(通常称为零假设),然后表明您的数据不太可能是在该假设下收集的。
在随机猜测假设下,您的数据将从二项式过程生成:
您实际上观察到票。如果受访者随机猜测,我们可以很容易地计算出我们观察到大于或等于我将使用python:
In [1]: import scipy.stats as stats
In [2]: 1 - stats.binom(n=131, p=0.5).cdf(71)
Out[2]: 0.14720307826175671
当受访者随机猜测时,看起来有 15% 的机会观察到的数据与您实际收集的数据相同或更高。你如何使用这个概率来影响你的信念取决于你。
假设在 n = 131 中有X有利于 A 而不是 B。那么人口比例有利于 A 的 95% Agresti-Coull CI 的形式为 其中和 这计算为其中包括 50%。
p.ac = 75/135; n.ac = 135; pm=c(-1,1)
p.ac + pm*1.96*(sqrt(p.ac*(1-p.ac)/n.ac))
[1] 0.4717328 0.6393783
检验原假设与单边备选 得到 P 值(假设为真)。尽管 65% > 50%,但在 5% 的水平上, 56% 似乎并没有显着大于50%。
这可以在 R 中计算如下:
1 - pbinom(72, 131, .5)
[1] 0.110558
更正式地说,R 中的精确二项式检验binom.test给出了这个 P 值以及单边 95% CI(即 95% 的下限)。
binom.test(73, 131, alte="g")
Exact binomial test
data: 73 and 131
number of successes = 73, number of trials = 131, p-value =
0.1106
alternative hypothesis: true probability of success is greater than 0.5
95 percent confidence interval:
0.4816258 1.0000000
sample estimates:
probability of success
0.5572519
附录; 有时 95% 的贝叶斯后验概率(“可信”)区间基于“无信息”或“平坦”先验分布,例如被常客统计学家用作 95% 的置信区间。我提到这一点部分是为了完整性,部分是因为@MatthewDrury 在他的回答(+1)中几乎似乎暗示了一个贝叶斯框架。
对于和这个区间估计可以通过找到具体来说,它在数值上与上面提到的 Agresti-Coull 区间非常相似。
qbeta(c(.025,.975), 74, 59)
[1] 0.4716082 0.6395668
注意:有关二项式区间估计的更多信息,请参阅此问答及其参考资料。
其它你可能感兴趣的问题