我需要比较两个二进制数据集的平均值。例如:
a = [1,1,0,0,0,0,0,0,0,1]
b = [1,0,1,1,1,0,0,1,1,0]
我只需要知道两个数据集之间的均值在统计上是否存在显着差异,换句话说,排列顺序1无关紧要。而且我确实知道所有值都是0or 1。同样在我的情况下,大小和是相当大,大于10,000和数量1即将10。100
在这种情况下使用的最佳测试是什么?
我知道我不能使用t-test,因为我的数据不是正态分布的。
我需要比较两个二进制数据集的平均值。例如:
a = [1,1,0,0,0,0,0,0,0,1]
b = [1,0,1,1,1,0,0,1,1,0]
我只需要知道两个数据集之间的均值在统计上是否存在显着差异,换句话说,排列顺序1无关紧要。而且我确实知道所有值都是0or 1。同样在我的情况下,大小和是相当大,大于10,000和数量1即将10。100
在这种情况下使用的最佳测试是什么?
我知道我不能使用t-test,因为我的数据不是正态分布的。
您可以以列联表的形式表达您的数据。对于小的 N,您可以使用Fisher 精确检验来测试您的测量 a 和 b 是否相互依赖。
对于较大的 N,您可以使用卡方检验
由于在您的情况下均值和比例相同,您可以使用比例测试来测试组中比例(成功概率)相同的空值。
至于参考,我可以建议
Hollander 和 Wolfe 的书 Nonparametric Statistical Methods