职业拳击手的出生日期重要吗?证明/反驳占星家的预测

机器算法验证 假设检验 统计学意义 卡方检验
2022-04-04 18:15:38

作为我关于拳击手出生月份的问题的后续,我提出了一个基本问题以及我的假设(测试占星家可能得出的结论是否属实):优秀的职业拳击手往往是金牛座、摩羯座或处女座(“土象星座”,具有耐力、力量、朴实、坚韧、力量和控制力的人)。并且我们应该在职业拳击比赛中看到更少的“空灵”标志(从统计上看,双鱼座、水瓶座和天秤座的数量显着减少——这些人往往更和平、温顺、“高尚”、更公平、不那么残酷、不那么朴实)。

我专门使用拳击手,而不是例如 NFL 球员,因为许多人可能出于不同的原因踢足球并拥有不同的技能(速度就是明显的例子,或者能够将球扔得很远,或者能够阅读防守,也就是情报)。但职业拳击手(尤其是中等重量及以上)必须具备力量、耐力和爆发力(较轻的重量可能仅靠速度)。即使是像阿里这样速度很快的重量级人物,也非常强大,拥有巨大的决心。

无论如何,人口出生日期/标志平均值与拳击手之间的任何统计差异都会很有趣,即使因果关系无法或不会建立。然后我可能会查看其他领域——例如,连环杀手的出生日期、歌曲作者的出生日期。占星家可能会说“摩羯座是优秀的会计师”,但如何才能(可靠地)获得会计师的出生日期?可以找到职业拳击手、连环杀手和其他目标人群的出生日期。

我的结果是这些(正如我之前关于拳击手出生月份的问题中提到的那样——当时我避免提及占星术,因为它会让一些人抱怨和/或认为你疯了。我只是好奇和调查)。

n = 67. 27 适合土象星座(我预测的摩羯座、金牛座或处女座)。这有统计学意义吗?27/67 与预测的 25% 的 67 (16.75) 有统计学差异吗?(有 4 个标志类别,所以我预计 25% 属于任何特定的标志类别)。

我还发现 10/67 是我预测的“反拳击手”——也就是说,67 人中只有 10 人是双鱼座、水瓶座或天秤座。同样,与预期的 16.75(67 的 1/4)相比,这是否具有统计学意义。

根据我之前对我的问题的回答,似乎需要进行卡方检验,或者我在这里的帖子是否改变了解决这个问题的最佳方法?

我还想更新我的列表,接近 100。我还可能想细化和分离享元和任何低于中等重量的东西——但是我认为这会使样本量减少太多,也许它对低重量级战士对力量、力量和耐力的需求。

卡方是否仍然是测试这些数据的最佳方法?或者有没有办法使用“类别”方法来测试它(12 个类别,每个星座 1 个,或者可能 4 个类别 - 第一个类别是地球标志,另一个类别是 25% 的双鱼座/天秤座/水瓶座类别所有出生)?

1个回答

如果您的假设是先验的,那么数据非常显着。

你的零假设是占星术不能预测任何事情。这意味着拳击手出生在“地球”标志下的概率是0.25,对于“空灵”的迹象也是如此。我假设您在查看实际出生日期之前先验地选择了这些标志。

您想反驳零假设,并且您对某个特定方向的偏差感兴趣:更多的拳击手出生在地球标志下,而更少在空灵标志下(反之亦然)。这意味着您可以进行单面测试这里是如何。

考虑地球标志。在零假设下,在这些标志下出生的拳击手总数中最可能的数量6767/4. 但是对于任何整数x之间067人们可以计算出这么多拳击手出生在这些标志下的概率。这给出了一个功能p(x),称为二项式概率密度函数然后你可以问,概率是多少27还是会有更多的拳击手出生在土象星座?答案由总和给出x=2767p(x). 计算它给出0.004.

这被称为p 值:在原假设下,您可以观察到您的结果,或者更极端的结果的概率。P值p=0.004相当低,大多数人会称之为“显着”,即数据似乎反对零假设。

我们可以对空灵符号做同样的事情,得到 p 值p=0.0310或更少的拳击手出生在他们之下。这也是相当低的。

但是请注意,这两个 p 值不是独立的:当然,如果更多的拳击手出生在土象星座,这将自动意味着更少的拳击手出生在空灵星座。我不知道如何计算观察概率67或更多和10或更少同时,但很容易模拟。让我们生成1000000零假设为真的平行世界。然后我们可以计算地球出生的拳击手数量为的世界数量 27或者更多; 哪里有空灵出生的拳击手的数量10或更少; 两者都是真的。这称为蒙特卡罗模拟

将计数除以1000000,我得到:0.004,0.03, 和0.0008. 前两个数字与上面获得的数字相同。最后一个数字是最相关的。

我会争辩说p=0.0008低到足以认为这里可能有一些有趣的东西!如果一个人有一些强烈的先验理由来怀疑占星术,那么人们会想要使用一个比传统阈值更严格的标准p<0.05“非同寻常的主张需要非同寻常的证据”p=0.0008看起来很有说服力(尽管仍然可能是侥幸)。

最后,让我提醒您,以上所有关键都取决于您在查看数据之前选择了十二生肖以及您选择拳击手而不查看其出生日期的事实。如果这不是真的,那么 p 值可以很容易地变为大约0.05正如@whuber 在这里很好地展示的那样


Matlab代码:

N = 1e+6;
counts = [0 0 0];

n1 = binornd(67, 0.25, [N 1]);
n2 = binornd(67-n1, 1/3);

counts(1) = length(find(n1>=27));
counts(2) = length(find(n2<=10));
counts(3) = length(find(n1>=27 & n2<=10));

display(['Monte Carlo results: ' num2str(counts/N, 2)])
display(['Analytical solution: ' num2str(1-binocdf(26,67,0.25), 2)])
display(['Analytical solution: ' num2str(binocdf(10,67,0.25), 2)])

在我的笔记本电脑上运行这个需要 4.5 秒,结果是

Monte Carlo results: 0.0043    0.034   0.00082
Analytical solution: 0.0042
Analytical solution: 0.034