如何解释自举相关的多模态分布?

机器算法验证 相关性 引导程序
2022-04-01 22:53:28

我有两个成对的变量 x 和 y:

person     x      y
1        124    100
2         79     94
3        118    105
...

这是数据的散点图:

在此处输入图像描述

我对 x 和 y 之间的相关性感兴趣。Bootstrapping 为我提供了以下分布。这些线是数据的实际相关性 (rho = 0.16) 和 bootstrap 分布的 0.25% 和 97.5% 分位数。

相关性的分布是多峰的是什么意思?

在此处输入图像描述

数据只是说明问题的一个例子。如果样本量足够大,这个结果意味着什么?

1个回答

我的猜测是您的数据中有(一组)异常值。一种模式代表包含它们的样本,另一种模式代表不包含它们的样本。我的猜测是,正确的模式对应于在散点图最小值的点和x类似的模式也可能出现在更大的样本中。 x x