从 Cross Validated 交叉发布:
我以前看过这个问题,但我还没有找到一个明确的来源来回答具体问题:
- 最适合应用于小型 A/B 测试的统计测试是什么?
- 分析小型 A/B 测试的 R 代码和解释是什么?
我正在进行一项小型测试,以确定哪些广告效果更好。我有以下结果:
位置一:
variation,impressions,clicks
row-1,753,26
row-3,767 7
位置 2:
variation,impressions,clicks
row-1,753,16
row-3,767 13
位置 3:
variation,impressions,clicks
row-1,753,2
row-3,767 7
我认为可以肯定地说这些数字很小并且可能不是正态分布的。此外,它是点击数据,因此存在点击与否的二元结果,并且试验是独立的。
适当的测试
在分析每个位置的重要性时,我认为与二项式或泊松分布进行比较是最有意义的。
根据OpenIntro Stats(和其他来源)一书,变量遵循泊松分布“......如果所考虑的事件很少,则人口很大,并且事件彼此独立发生。”
相同的来源以大致相同的方式对二项式变量进行分类,加上成功概率相同且试验次数是固定的。
我很欣赏这不是一个非此即彼的决定,并且可以使用这两种分布来完成分析。
鉴于 A/B(拆分)测试是一门已经实践多年的科学,我想有一个规范的测试。但是,环顾互联网,我大多遇到使用标准正态分布的分析。这似乎是错误的:)
是否有规范的测试可用于具有少量点击的 A/B 测试?
解释和R代码
我使用以下 R 代码来测试每个位置的重要性:
位置一:
binom.test(7, 767, p=(26/753))
Exact binomial test
data: 7 and 767
number of successes = 7, number of trials = 767, p-value = 1.077e-05
alternative hypothesis: true probability of success is not equal to 0.03452855
95 percent confidence interval:
0.003676962 0.018713125
sample estimates:
probability of success
0.009126467
我将这个结果解释为:测试组的成功概率确实与对照组不同,95% 的置信区间表明成功概率在 0.368% 和 1.87% 之间
ppois(((26-1)/753), lambda=(7/767), lower.tail = F)
[1] 0.009084947
我将这个结果解释为:给定泊松分布,每 767 次试验的点击率为 7,在同一分布中,每 753 次试验的点击率为 26 或更多的可能性为 0.9%。在广告示例中进行情境化,控制广告实际执行与测试广告相同的可能性为 0.1%。
上述解释正确吗?测试和解释是否随着位置的不同而变化(即泊松测试的结果是否更适合位置 3 给定的小数字)?