当值按每个分布的平均值缩放时,我需要比较两个分布是否相似。根据http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm,ks-test的一个限制是“如果从数据中估计位置、比例和形状参数,则关键区域KS 测试不再有效。”
考虑例如:
Data1由来自均匀随机分布 [0,1] 的 10000 个数字组成,均值为 0.5
Data2由来自均匀随机分布 [0,10] 的 10000 个数字组成,均值为 5.001
如果我将 Data1 与 Data2/10 进行比较,则 ks-test 给出的分布相同;而将 Data1/0.5 与 Data2/5.001 进行比较,则得出分布不同。在这种情况下,有没有办法检查分布之间的相似性?
编辑: 正如答案所示,我可以使用 ks-test ,其中 p 值是通过排列确定的。
我的另一个困难是数据点是整数:
Data1由来自均匀随机分布 [0,10] 的 10000 个整数组成,均值为 5
Data2由来自均匀随机分布 [0,100] 的 10000 个整数组成,平均值为 50.001
有没有一个测试来比较除了规模之外是否相似Data1?Data2此外,我不知道实际规模,我是根据数据确定的。
这些示例只是我的实际数据的一个代理,这是两个实验,其中 10000 人以 [0,10] 的比例对一部电影进行评分,而在其他情况下,10000 人以 [0,100] 的比例对同一部电影进行评分。除了规模之外,我还想检查一下分布是否相同。