当解释变量和响应变量是时间序列时的回归系数

数据挖掘 r 时间序列 回归 线性回归
2022-02-25 11:30:13

我在一台物理服务器(硬件机器)上有多个 VM(虚拟机)。我有所有虚拟机和物理服务器的 CPU 利用率信息(每 5 分钟一次)。现在我想了解每个虚拟机如何影响物理服务器的整体负载。我假设这是一个时间序列问题。每个 VM 以及物理服务器的 CPU 利用率是单独的时间序列。解决此问题的一种方法是应用线性回归,将每个 VM 的 CPU 利用率作为解释变量,将物理服务器的 CPU 利用率作为响应变量。

  cpu_physical_server(t) = Function(cpu_vm_one(t) + cpu_vm_two(t) + cpu_vm_three(t) + .....)

据我了解,我不能直接应用回归建模(lm()glm()),因为这些都是时间序列(链接)。

问题是当解释变量和响应变量都是时间序列时,如何计算回归系数?我应该申请什么样的更正?

1个回答

您还应该查看 StackExchange 上的 Cross Validated 论坛,其中有很多与时间序列分析相关的问题。

您正在寻找的似乎是“动态回归”或“干预分析” https://www.otexts.org/fpp/9/1(在 R 中有示例)

在这里https://onlinecourses.science.psu.edu/stat510/node/72,您会发现一个执行普通线性回归但调查由数据的时间序列结构引起的自相关错误的程序(还有一个示例R)