测试时间序列建模中的特征依赖关系

数据挖掘 时间序列 特征工程
2022-03-14 04:49:11

我有跟踪 3 个位置的事件发生的时间序列数据。这是一个示例:

               Count     Total 
Location       A  B  C    
Date                              
2018-06-22     0  1  1     2
2018-06-23     2  1  0     3
2018-06-24     0  0  1     1
2018-06-25     2  2  1     5
2018-06-26     0  3  1     4

我想使用这些数据来预测未来给定日期的事件发生总数。如何测试在一个位置发生的事件是否对在另一个位置发生的事件产生影响(依赖关系)?我相信,如果在位置 B 和 C 发生的事件是相关的,我应该将 2 列加在一起作为模型中的 1 个特征。

1个回答

如何测试在一个位置发生的事件是否对在另一个位置发生的事件产生影响(依赖关系)?

  • 两列之间的Pearson 相关性已经为您提供了是否存在依赖关系的简单指示。
  • 一种χ-square 检验会告诉您观察变量(例如在一个位置计数)和预期变量(在另一个位置计数)之间是否存在显着差异。换句话说,它可以告诉你变量是否独立。
  • 条件概率 p(A|B)给定另一个变量 B 的变量 A 告诉您事件 A 假设事件 B 发生的可能性有多大。AB是独立的,如果p(A|B)=p(A)(请注意,在真实样本的情况下不太可能完全相等)。

我相信,如果在位置 B 和 C 发生的事件是相关的,我应该将 2 列加在一起作为模型中的 1 个特征。

除非您有特定的理由这样做(例如,您想考虑包括位置 B 和 C 的大区域),否则这没有多大意义:

  • 第一个依赖不是“全有或全无”,两个变量可以有一定程度的依赖,但这并不意味着它们完全相互遵循。因此,将它们合并为一个特征会丢失一些信息。
  • 如果将 B 和 C 的两个值组合在一起,这将使得无法预测特定位置(例如 B)的未来事件。