数据挖掘 - 如何控制传感器数据读数以对抗（测量的）外部影响？ - 吾爱随笔录

如何控制传感器数据读数以对抗（测量的）外部影响？

数据挖掘 Python 熊猫数据分析

2022-02-20 04:10:56

我需要一些提示来解决我遇到的这个问题。

我有一个皮肤电活动读数数据集，从本质上讲，它会受到被调查者的运动的影响。然而，在同一个数据集中，我也有可以用来“控制”数据的加速度计数据。这意味着，我希望，在查看 EDA 读数并过滤它们/校正加速度计值中明显的姿势变化时，我可以以某种方式考虑人的加速度计读数。

例如，图。图 1 显示了在实验开始时具有较高峰值突出的 EDA（也称为皮肤电反应，或 gsr）读数：

第二张图显示了 x、y 和 z 方向上的加速度计读数，似乎在这些更高的峰值突出阶段显示出更多的活动：

如何根据这些加速度计读数控制我的 EDA 值？任何对文学或数学的提示将不胜感激。

提前致谢！

1个回答

简而言之，我认为您问题的重点主要是如何处理协变量（注意这个术语及其同义词的使用并不总是很清楚 - 请参阅此处和此处。我所说的协变量是“在统计中，一个协变量表示在实验中未控制的变异源，并且被认为会影响因变量。”）

如果我们先退后一步，问你真正想从分析中得到什么，我的理解是调查两个（或更多）变量之间的关系。这些一方面是EDA 值，另一方面是一些输出变量，例如基于心跳数据的情绪状态（因为此时我没有太多关于您的结果变量的信息，我将简单地调用他们y）。因此，您将EDA 值作为自变量，并且y作为因变量。到目前为止，非常好 - 可以通过多种方式在统计上将因变量和自变量结合在一起，从甚至只是计算两者之间的相关性（假设它们都是数字变量）跨拟合线性模型和机器学习技术等。现在让我们建立一个线性模型：

简写符号：y = EDA

相同的模型写得更详细：y = intercept + EDA + error

但是，您已经知道，您还有其他外部影响会影响您的 EDA 值。幸运的是，您甚至尝试通过加速度计测量/量化这种影响。因此，除了您感兴趣的因变量和您感兴趣的自变量之外，您现在还有第三种类型的变量：您并不真正感兴趣的自变量，但您希望对这些变量产生影响你感兴趣。这就是我所说的协变量。将协变量纳入模型可以极大地提高统计模型实际分析我们感兴趣的变量的能力。换句话说：在最佳情况下，协变量解释了数据中很多无法解释的噪声，即剩下的可变性让我们对以前看不到的其他变量之间的关系得出结论。所以上面的模型可能变成：

y = EDA + 协变量

y = 截距 + EDA + COVARIATE + 误差

因此，问题出现在如何决定是否在模型/分析中包含这样的协变量。在这个领域中非常重要的一种分析是协方差的ANCOVA 分析。

我将在这里停下来确保我正确理解了这个问题，并且很高兴听到这到目前为止是否有帮助。

其它你可能感兴趣的问题

上一篇如何处理数据集中 99% 的样本缺失的有价值的特征？下一篇如何在推荐系统中包含用户特征？