皮尔逊相关系数 - 相关估计是否可以接受?

数据挖掘 相关性 参数估计 估计者
2022-03-05 13:34:06

据我所知,在理论方面,当我们想要检查两个变量之间的相关性时,我们会使用皮尔逊相关性,这两个变量都是连续的或离散的。对于混合情况,使用它来计算相关系数并不容易。另一方面,我们有 Pearson 相关估计器,我们可以毫无问题地计算混合情况(基于样本)。在这种情况下,皮尔逊相关系数是否给出了欺骗性的结果?

1个回答

如果离散变量有很多离散值,那么它几乎与连续变量相同,因为连续变量在技术上是离散的,这取决于计算机中数字的表示方式(Python 的 float64)。

最坏的情况是二进制,但根据我的经验,皮尔逊系数可以很好地处理二进制和连续数据。我知道渐近分布可能导致线性回归的有偏估计。但是皮尔逊系数是计算的方式,它不是对某事的估计,所以我不能说它是有偏还是无偏。我知道如果关系是线性的,那么你会得到一个很强的 Pearson 系数,如果不是,那么你会得到一个很小的数字。

对于连续数据和二进制数据,这意味着您需要有一个强大的阈值。对于二进制变量,如果低于阈值的所有值均表示 0,高于阈值的所有值均表示 1,则相关性很强。虽然如果我没记错的话它仍然不是 1,因为你无法用一个二元变量解释连续变量的 100% 方差。但你可能会得到一个大约 80% 的数字。这一切都取决于阈值的位置以及变量的分布方式。如果你有两个不同的连续变量云,它们相隔很远,那么你将得到一个接近 100% 的数字。类似的逻辑可用于具有多个值的离散变量。

由于计算方式,皮尔逊系数对最多点所在的位置赋予了更强的权重。因此,如果您在特定区域没有点,那么系数就无法反映那里的相关性。在实践中,这意味着您通常在有限范围内拥有点,并且您在此范围内计算线性相关性。