一个面试问题是这样的:
给定一枚硬币,您不知道它是公平的还是不公平的。投掷 6 次,得到 1 个尾和 5 个头。判断是否公平。你的信心值是多少?
我提出了以下解决方案:
硬币公平 硬币不公平
:是正面的数量
拒绝区域:,即
显着性水平阿尔法:
因为,我们没有足够的证据拒绝,我们接受,所以硬币是公平的
上面的测试好不好?而且我不知道如何计算置信度值?
一个面试问题是这样的:
给定一枚硬币,您不知道它是公平的还是不公平的。投掷 6 次,得到 1 个尾和 5 个头。判断是否公平。你的信心值是多少?
我提出了以下解决方案:
硬币公平 硬币不公平
:是正面的数量
拒绝区域:,即
显着性水平阿尔法:
因为,我们没有足够的证据拒绝,我们接受,所以硬币是公平的
上面的测试好不好?而且我不知道如何计算置信度值?
[我想我会先要一块白板、记号笔和一块橡皮,因为一张板子不足以解释问题的所有问题。]
我将通过拒绝其前提来回答这个问题。
“硬币”本身只是一枚硬币;它本身并没有做任何事情,因此它不能公平或不公平。我们正在谈论的是以某种方式投掷特定硬币的过程——这可以从它是否公平的角度来讨论。
数据无法向您表明应用于某些硬币的抛硬币过程是完全公平的。有时它可以告诉你你在给定硬币上的抛硬币过程与公平不一致,但未能识别出任何与公平不一致的地方并不意味着公平(未能拒绝是因为你的样本量小,而不是因为硬币实际上是公平的)。
[例如,根据 P(head) 的置信区间来考虑它,在 CI 中的事实并不意味着 P(head)=,因为总是有其他值 - 不同于 -也在里面。的情况下,你拒绝为不公平的概率是多少在某个典型的显着性水平上这显然是一枚不公平的硬币,但你的拒绝率几乎不会比你的第一类错误率高,而且在双尾测试中,这些拒绝中的很大一部分将是“在错误的尾巴上”!]
给定硬币的抛硬币过程不会是完全公平的。(例如,正如 Persi Diaconis 进行的实验所表明的那样,将面朝上稍微改变与抛掷时产生的面相关的机会。)
硬币能接近公平吗?可能;甚至有可能非常接近公平。完全公平吗?不,这在实践中是不可能的。但随后要讨论它是否“接近公平”,我们必须定义“接近”的含义。[如果我们要给出一些有用的定义,而有些人可能会建议某种形式的等价测试,或者考虑某些 CI 是否完全位于一些“接近公平”的范围内,我倾向于使用贝叶斯方法来决定是否硬币足够接近公平。请注意,由于提到的样本量很小,数据与 p(head) 非常一致,距离对这些数据进行的这项工作不会就上述三种方法中的任何一种得出“接近公平”的结论。]
所以:
给定一枚硬币,您不知道它是公平的还是不公平的。
是的,事实上,我愿意。事实上,我什至不需要查看数据。这不公平。
投掷 6 次,得到 1 尾和 5 头。判断是否公平。
我真的不在乎数据是什么。这对我的回答没有影响,因为数据不可能证明公平,即使公平是一种现实可能的状态。
你的信心值是多少?
100%(在某种意义上类似于几乎肯定)
(无论如何,即使有一种统计方法可以做到这一点,我也不知道有任何统计程序可以给出我同意称之为“置信度值”的任何东西,所以我也拒绝该问题的形式。什么这个词甚至是什么意思?如果我在面试中被问到这样的问题,我会非常担心在那里工作,因为这似乎表明进行面试的人并不真正理解他们甚至在问什么——这表明要么那里没有人知道这些东西,要么他们对这个职位不够关心,以确保面试是由知道的人进行的。无论如何,这肯定会影响我在那里工作的意愿。)
暂时忘记我刚才所说的一切,对您的假设检验的一些评论:
您的假设检验过程是错误的。
为什么将显着性水平与 0.05 进行比较?你选择了 0.21 的显着性水平(在这个实验中我不反对,样本量太小了,你只有 3% 或 21% 并且 =3% 的功率太低而不能用得上) -- 0.05 与这里的任何内容都无关。
您是否看到在您的测试中,当需要拒绝或不拒绝时,您根本没有参考样本统计数据(5 个正面)?确实,您忽略了拒绝规则。
您以代数方式陈述的拒绝规则与您提到的拒绝区域()不一致。
几行就有很多错误!如果我参与了这样的面试**,我可能会原谅拒绝规则的错误,因为在面试压力下人们可能会忽略这一点,但前两个错误会暗示一些基本问题。
** 撇开我永远不会问这么糟糕的问题不谈,我也不会足够关心假设检验,甚至想问一个关于它的问题。
我不会试图为你的问题提供最终答案;我相信在格伦给出的全面回应之后,这个话题已经得到了解决。然而,根据他对贝叶斯方法的评论,我想发表一些说明,说明我们对硬币“公平”(或一般实验)的先入之见如何影响后验概率密度,即,其中代表抛硬币正面朝上的概率。
幸运的是,对于占据我们的二项式情况,我们有一个共轭先验分布- beta 分布,这有助于计算后验分布。
First scenario - The Fair-Minded Player:
我们走进游戏(不是一场非常激动人心的游戏,但仍然......),我们绝对没有理由假设正在发生犯规。事物在本质上并不完美,我们认为硬币是公平的。换句话说,我们认为正面的概率落在左右。次抛掷中出乎意料的单尾,将迫使我们将的后验概率向左移动(箭头表示数据对先验分布的影响):
Second Scenario - The Shrewd Player:
从知情人泄露的消息中,我们强烈怀疑这场比赛明显偏向反面,我们不仅要杀出重围,还需要在首轮过后进一步坚定信念,加倍下注:
Third Scenario - Losing Your Shirt:
我们以前从未玩过,但我们已经阅读了手册,并且感觉已经准备好了。所有迹象都清楚地表明硬币明显偏向正面我们很快就会以高昂的 $成本开始纠正这个错误:
Fourth Scenario - No Idea Whatsoever:
分布变成来解决这种情况是一件好事,在这种情况下,只有可能性会影响的 -后验概率。正如我注意到的那样,杰弗里斯先验很接近并且可能更正确:
因此,我希望这为我们估计该游戏被操纵的可能性的方法提供了一些轻松的视觉描述,也许包含更多的真实场景而不是类型的计算pbinom(1, 6, 0.5)。如果您想要 R 中的代码,以及带有 Matlab 插图的精彩视频的学分,我将其发布在这里。
我正在考虑使用卡方来测量分类变量之间的统计差异。
零假设:你扔的硬币一半是正面,一半是反面。替代假设:与上述相反
然后使用这个公式 sum((f0-fe)^2/fe) 计算卡方,其中 f0 是您的统计量或点估计值,fe 是期望值。然后将此值与表中给出的临界卡方值进行比较,以确定您是否拒绝零假设。