问题:有哪些推荐的技术来匹配数据集中的特定模式?
背景
我有几千个站点,我已经为其收集了时间序列数据。在下面的示例图中,我们在 y 方向上增加了时间,其中显示了来自两个站点的 2 个不同仪器的数据流。我为四个重要事件添加了手工挑选的、颜色编码的相关标记。通常我们会在每个测量位置选择 10-15 个这些标记。
通常,这些标记是手动关联的,但是,对于 1000 个采样点,这在合理的时间内是不可行的。我已经对大约 150 个数据流进行了手动关联,但更愿意使用自动化或半自动化流程来进行关联。
我们对数据有以下看法:
- 通过挑选一个稀疏的数据集(例如,前 150 个手工挑选的相关性),我们可以对标记在相邻站点中的位置做出强有力的猜测。
- 标记之间的时间间隔不是恒定的,只有很小的变化
- 标记 A 总是在标记 B 之前,标记 B 在标记 C 之前,依此类推。
- 并非所有标记都会出现在所有测量点
- 并非所有测量站点都能够评估完整的时间序列(在下面的示例中,想象如果一个在 8000 毫秒时被切断,而不是超过 10,000 毫秒
- 数据可以很容易地归一化以具有相似的值范围。
先验方法
我已经使用了 DTW 和 Fast DTW(动态时间扭曲)来执行任务,但它只有在有完整且完整的数据流并且所有标记都存在时才能正常工作。DTW 的缺点是它是一种 O(N2) 方法,并且具有 20,000 多个样本和大约 5000 个测量点的数据流,它的计算速度太慢了。
重述问题
- 有哪些推荐的技术可以匹配时间序列数据中的特定“标记”?
- 是否有仅评估数据流的某些部分的技术与评估整个数据流的动态时间扭曲之类的技术?
- 我应该考虑哪些数据预处理以使计算更容易?
示例数据
