如何不使用统计数据

机器算法验证 教学 有效性
2022-02-04 09:56:16

这是一个开放式问题,但我想清楚。给定足够的人口,您可能能够学到一些东西(这是开放的部分),但是无论您了解您的人口,它何时适用于人口中的成员?

根据我对统计数据的理解,它永远不适用于人口中的单个成员,然而,我经常发现自己在一个讨论中,另一个人会说“我读到世界上有 10% 的人口患有这种疾病”并继续得出结论,房间里每十个人就有这种疾病。

我知道这个房间里有十个人的样本量不足以使统计数据具有相关性,但显然很多人都没有。

然后是足够大的样本。您只需要探测足够多的人口即可获得可靠的统计数据。但是,这不是与统计数据的复杂性成正比吗?如果我正在测量非常罕见的东西,这是否意味着我需要更大的样本才能确定此类统计数据的相关性?

问题是,当涉及到统计数据时,我真的质疑任何报纸或文章的有效性,他们用它来建立信心。

这有点背景。

回到这个问题,在哪些方面你不能或不能使用统计数据来形成论点我否定了这个问题,因为我想了解更多关于统计数据的常见误解。

4个回答

除非房间里的人是世界人口的随机样本,否则任何基于世界人口统计数据的结论都将是非常可疑的。世界上五分之一的人是中国人,但我的五个孩子都不是……

  1. 为了解决对小样本过度应用统计的问题,我建议用众所周知的笑话来反驳(“我很兴奋,我妈妈又怀孕了,我的弟弟妹妹会是中国人。”“为什么?”“我读过每四个孩子是中国人。”)。

  2. 实际上,我建议用笑话来解决统计中的各种误解,有关相关性和因果关系,请参见http://xkcd.com/552/

  3. 报纸文章的问题很少在于它们对待罕见现象的事实。

  4. 辛普森悖论作为一个例子浮现在脑海中,即如果不分析原因,很少能使用统计数据。

Mary Gray 有一篇关于在法庭案件中滥用统计数据的有趣文章以及类似的事情......

格雷,玛丽 W。统计和法律。数学。麦格。56 (1983), 没有。2, 67–81

要根据人口得出关于群体的结论,该群体必须代表人口并且是独立的。其他人已经讨论过了,所以我不会在这篇文章中详述。

要考虑的另一件事是概率的非直观性。假设我们有一组 10 个人,他们是独立的并代表总体(随机样本),并且我们知道总体中有 10% 具有特定特征。因此,这 10 个人中的每个人都有 10% 的机会拥有该特征。常见的假设是相当肯定至少 1 将具有该特征。但这是一个简单的二项式问题,我们可以计算出 10 个中没有一个具有特征的概率,大约是 35%(对于更大的组/更小的概率收敛到 1/e),这比大多数人猜测的要高得多。还有 26% 的可能性是 2 人或更多人具有该特征。