我刚刚参与了一个Q/A,一个可怜的人被要求进行统计测试,以证明算法 A 优于其他两种算法。但是,他只有 4 个数据点。对 4 点进行统计检验真的有意义吗?极限在哪里?在三个?
澄清一下,我知道报告了 12 个数字,但对我来说,它看起来更像是 4 个 3D 数据点或 3 个 4D 数据点。
在他们的回答中,作者引入了一些关于下划线分布的假设,以便人为地增加数据点的数量,并在此过程中计算四个数字的平均值;或对算法对执行 t 检验(每对总共比较 8 个数字),然后再次对下划线分布做出毫无根据的假设。
当您不知道下划线分布并且因为您没有足够的数据而无法推断/验证它时,这个过程有多可靠?说这么少的数据无能为力不是更公平吗?