比较两个二进制数据集的平均值

机器算法验证 假设检验 统计学意义
2022-03-25 05:45:03

我需要比较两个二进制数据集的平均值。例如:

a = [1,1,0,0,0,0,0,0,0,1]
b = [1,0,1,1,1,0,0,1,1,0]

我只需要知道两个数据集之间的均值在统计上是否存在显着差异,换句话说,排列顺序1无关紧要。而且我确实知道所有值都是0or 1同样在我的情况下,大小和是相当大,大于10,000和数量1即将10100

在这种情况下使用的最佳测试是什么?

我知道我不能使用t-test,因为我的数据不是正态分布的。

2个回答

您可以以列联表的形式表达您的数据对于小的 N,您可以使用Fisher 精确检验来测试您的测量 a 和 b 是否相互依赖。

对于较大的 N,您可以使用卡方检验

由于在您的情况下均值和比例相同,您可以使用比例测试来测试组中比例(成功概率)相同的空值。

至于参考,我可以建议
Hollander 和 Wolfe 的书 Nonparametric Statistical Methods