机器算法验证 - 你能用 4 个数据点做统计吗？ - 吾爱随笔录

你能用 4 个数据点做统计吗？

机器算法验证统计学意义小样本

2022-04-04 06:02:08

我刚刚参与了一个Q/A，一个可怜的人被要求进行统计测试，以证明算法 A 优于其他两种算法。但是，他只有 4 个数据点。对 4 点进行统计检验真的有意义吗？极限在哪里？在三个？

澄清一下，我知道报告了 12 个数字，但对我来说，它看起来更像是 4 个 3D 数据点或 3 个 4D 数据点。

在他们的回答中，作者引入了一些关于下划线分布的假设，以便人为地增加数据点的数量，并在此过程中计算四个数字的平均值；或对算法对执行 t 检验（每对总共比较 8 个数字），然后再次对下划线分布做出毫无根据的假设。

当您不知道下划线分布并且因为您没有足够的数据而无法推断/验证它时，这个过程有多可靠？说这么少的数据无能为力不是更公平吗？

3个回答

我有一个朋友曾经在美国国防部工作（很久以前，冷战时代），曾经被要求使用单个数据点回答一个问题。当他坚持需要更多数据时，他被告知提供单个数据点的人在提供单个数据点后不久就因间谍活动被抓获并处决，因此不会有更多数据出现。那是我朋友开始学习贝叶斯统计的时候。

我还记得几年前看到一篇文章，可能在美国统计学家，可能在 Chance，它得出了一种方法来计算基于单个数据点的平均值的置信区间（x 值的 95% 区间是像 -x 到 3*x），如果您愿意做出某些假设（并且通常的诊断只需要 1 分就没有任何帮助）。

所以，是的，您可以用非常小的样本量进行有效的统计，但是您往往会具有低功效/精度，并且大样本属性对您没有帮助，因此违反任何假设都会产生潜在的更大影响。

简短的回答：是的，但你的结果通常是无用的。

长答案：统计通常涉及基于数据对基础参数进行某种推断，并限制假阳性和/或假阴性的概率。在典型的测试中，即测试样本是否来自给定分布，我们为 I 型错误（假阳性）的概率设置了一个上限（称为 alpha），主要有两个原因：

在实践中，这是您可以限制的唯一一种错误，b/c 您的零假设的性质
误报通常被认为比误报更可怕（奥卡姆剃刀的推论）

保持 alpha 不变，对于较小的数据集，beta（假阴性概率的上限）通常较大。当 beta 很大时，您产生阳性的总体概率非常小，因此您的测试几乎总是会返回阴性，这与从一开始就接受您的空假设没有太大区别。在这种情况下，我们说统计检验不是很强大。

我帮助了一个地质项目，研究人员有一个单一的数据点，伴随着一个非常可靠的不确定性界限。他们有兴趣测试一个地质模型（一组描述构造板块演化的微分方程），该模型对单个基准的值做出了非常具体的预测。鉴于其不确定性分布，我们可以直接计算 p.value，假设模型为真，并令人信服地拒绝原假设。因此，在这种情况下，我认为我们成功地用单个数据点（及其不确定性）“进行了统计”。

其它你可能感兴趣的问题

上一篇“分布大于分布”是什么意思？下一篇与平均值的偏差总和为 0 的例外情况