如果两个变量之间的相关性受到一个因素的影响,我应该如何评估这种相关性?

机器算法验证 相关性
2022-04-12 14:35:14

这是我的例子。假设我们使用两种不同的方法(a 和 b)评估一个特征,并且我们想研究这两种方法是否以相同的方式执行。我们还知道这两个测量值是从两个不同的组中记录的,并且这些组中每一组的平均值都存在很大差异。我们的数据集可能如下:

a <- c(22,34,56,62,27,53)
b <- c(42.5,43,58.6,55,31.2,51.75)
group <- factor(c(1,1,2,2,1,2), labels=c('bad','good'))
dat <- data.frame(a, b, group)

a 和 b 之间的关联可以计算为:

lm1 <- lm(a ~ b, data=dat)
summary(lm1)

Call:
lm(formula = a ~ b, data = dat)

Residuals:
      1       2       3       4       5       6 
-13.810  -2.533  -3.106   8.103   7.541   3.806 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) -25.6865    19.7210  -1.302   0.2627  
b             1.4470     0.4117   3.514   0.0246 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 9.271 on 4 degrees of freedom
Multiple R-squared: 0.7554, Adjusted R-squared: 0.6942 
F-statistic: 12.35 on 1 and 4 DF,  p-value: 0.02457

正如我们所看到的,这两种措施之间似乎存在高度关联。但是,如果我们分别对每个组进行相同的分析,这种关联就会消失。

lm2 <- lm(a ~ b, data=dat, subset=dat$class=='bad')
summary(lm2)

Call:
lm(formula = a ~ b, data = dat, subset = dat$group == "bad")

Residuals:
      1       2       5 
-6.0992  5.8407  0.2584 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  22.9931    35.1657   0.654    0.631
b             0.1201     0.8953   0.134    0.915

Residual standard error: 8.449 on 1 degrees of freedom
Multiple R-squared: 0.01769,    Adjusted R-squared: -0.9646 
F-statistic: 0.01801 on 1 and 1 DF,  p-value: 0.915

和,

lm3 <- lm(a ~ b, data=dat, subset=dat$class=='good')
summary(lm3)

Call:
lm(formula = a ~ b, data = dat, subset = dat$group == "good")

Residuals:
     3      4      6 
-2.394  5.047 -2.652 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  34.9361    70.4238   0.496    0.707
FIV           0.4003     1.2761   0.314    0.806

Residual standard error: 6.184 on 1 degrees of freedom
Multiple R-squared: 0.08959,    Adjusted R-squared: -0.8208 
F-statistic: 0.09841 on 1 and 1 DF,  p-value: 0.8065 

我们应该如何评估这两种方法之间的关联?我们应该考虑到群体因素吗?也许这是一个微不足道的问题,但我对如何处理这个问题有疑问。

2个回答

这可能是局部不相关但全局相关变量的情况。由于组同质性,每组的方差可能是有限的,因此没有证据表明每组之间存在关系。但在全球范围内,在完全方差的情况下,这种关系可能会很牢固。三组内联合分布的示意图,以及由此产生的全局联合分布:

在此处输入图像描述

编辑:您的问题似乎也是全局相关性是否仍然是“真实的”,即使每个组内的理论相关性为 0。随机变量是在概率空间上定义的,其中是所有结果(在您的情况下考虑不同的可观察人),并且是概率度量。如果您的自然人口包括来自所有组的成员,那么:是的,这些变量是“真正”相关的。否则,如果不同组的成员不形成自然共同的,但每个都属于不同的群体,那么:不,变量是不相关的。<Ω,P>ΩPΩΩ

因此,重要的是评估组的同质性是由于数据数量少,还是实际上这些组非常同质和不同。在第一种情况下,我们可以确保存在高度相关性,即使没有单独观察到每个组。

但是在第二种情况下会发生什么?如果即使使用大量数据我们也无法观察到每个组内的相关性,我们可以说这种相关性存在吗?

也许其中一个度量的值仅对预测两个组之一的成员资格有用,而不能预测另一个度量的值。