简而言之,我认为您问题的重点主要是如何处理协变量(注意这个术语及其同义词的使用并不总是很清楚 - 请参阅此处和此处。我所说的协变量是“在统计中,一个协变量表示在实验中未控制的变异源,并且被认为会影响因变量。”)
如果我们先退后一步,问你真正想从分析中得到什么,我的理解是调查两个(或更多)变量之间的关系。这些一方面是EDA 值,另一方面是一些输出变量,例如基于心跳数据的情绪状态(因为此时我没有太多关于您的结果变量的信息,我将简单地调用他们y)。因此,您将EDA 值作为自变量,并且y作为因变量。到目前为止,非常好 - 可以通过多种方式在统计上将因变量和自变量结合在一起,从甚至只是计算两者之间的相关性(假设它们都是数字变量)跨拟合线性模型和机器学习技术等。现在让我们建立一个线性模型:
简写符号:y = EDA
相同的模型写得更详细:y = intercept + EDA + error
但是,您已经知道,您还有其他外部影响会影响您的 EDA 值。幸运的是,您甚至尝试通过加速度计测量/量化这种影响。因此,除了您感兴趣的因变量和您感兴趣的自变量之外,您现在还有第三种类型的变量:您并不真正感兴趣的自变量,但您希望对这些变量产生影响你感兴趣。这就是我所说的协变量。将协变量纳入模型可以极大地提高统计模型实际分析我们感兴趣的变量的能力。换句话说:在最佳情况下,协变量解释了数据中很多无法解释的噪声,即剩下的可变性让我们对以前看不到的其他变量之间的关系得出结论。所以上面的模型可能变成:
y = EDA + 协变量
y = 截距 + EDA + COVARIATE + 误差
因此,问题出现在如何决定是否在模型/分析中包含这样的协变量。在这个领域中非常重要的一种分析是协方差的ANCOVA 分析。
我将在这里停下来确保我正确理解了这个问题,并且很高兴听到这到目前为止是否有帮助。