滚动线性回归的频率响应

信息处理 离散信号 低通滤波器 频率响应 移动平均线
2022-02-16 16:31:43

我正在寻找一种方法来从线性回归中表征斜率的频率响应。我们正在探索回归窗口长度对回归斜率大小的影响,发现对于我们的数据(离散时间序列数据),斜率与窗口长度正相关。

斜率可以被认为是我们的输出变量对于给定输入变量在等于窗口长度的时间段内的预期变化。我们发现对于短窗口长度,该斜率非常低,而对于长窗口长度,斜率很高。我们将此解释为意味着系统在长期内响应输入的变化,但在短期内不响应。对我来说,这听起来很像一个低通滤波器,它消除了输入中的快速变化,但传递了较慢(或者更确切地说,更持续)的变化。

滚动窗口回归的斜率或 beta 在某种程度上类似于移动平均,并且可以将移动平均滤波器的频率响应表征为其窗口长度的函数,如此处所示我想知道是否有人知道类似的方法来以类似的方式将滚动回归的 beta 的频率响应作为其窗口长度的函数来表征?

请注意,我已经阅读了这篇探索使用回归 beta 作为过滤器的论文,但我无法直观地理解为什么窗口长度越大,截止频率似乎越低。


以下是我们数据的一些描述性图表,可以说明我们为什么要问这个问题:

在此处输入图像描述

在上图中,粗灰色线是对所有数据的回归(即长窗口长度),斜率为 1.79。彩色线(和点)显示单年数据的回归(这些线的贝塔在图表图例的括号中)。任何一年的贝塔值都明显低于整体贝塔值。换句话说,灰线比其他线陡峭得多。这适用于任何任意 1 年的数据窗口(即,没有一年的数据窗口具有与整体数据一样陡峭的斜率)。

下一张图表显示了不同窗口长度的滚动 beta:

在此处输入图像描述

因此,我们试图回答的问题(并希望通过将回归表征为 LPF 来做到这一点)是为什么该图表中的线随着窗口长度的增加(例如黄线高于绿线)。我们如何解释这种现象?

3个回答

这是一个统计问题,不应该在这里问。但我会尽量回答这个问题(这不是最好的答案)。首先,我看不出您观察到的现象与频率响应或 LPF 有什么关系。低通滤波器使数据更平滑,这不是你所拥有的。相反,您有一种情况,其中一组数据的估计与另一组数据有很大不同。OLS 估计器也不是 MA 过程,公式为 cov(x,y)/var(x)。论文中描述的滤波器不是线性时不变滤波器。

实际上,如果您对白噪声过程或线性增长过程中的一条线进行回归,则随着收集到更多数据,回归线不应显着改变斜率。相反,随着数据量的增长,您应该更加确定系数是正确的,从而为滚动过程产生更大的方差,但平均而言,斜率应该是正确的。

您在这里拥有的不是满足高斯马尔可夫假设的过程。可以很容易地看出,误差的期望值不为零,并且存在严重的自相关。这意味着误差项与自变量相关,产生有偏估计。除此之外,数据不是随机选择的。

最重要的是,数据随着时间的推移而增加。这会产生所谓的虚假相关。由于随着时间的推移 Y 比 X 增加得更快,所以 beta 变得向上偏向。您可以使用 MA 过程对自相关进行建模,但这并不重要......

我相信statistics stackexchange(交叉验证)会为您提供更精确的数学答案和更好的现象解释。可能有帮助的一件事是区分两个变量,这会改变错误的自相关结构。这可以同样被视为应用于两个变量的 (1-1) MA 过程,这是一个高频梳状滤波器,产生一个低于奈奎斯特频率的高通滤波器。但是数据具有如此非标准的结构,我不太确定修复程序是否会对您有所帮助。

从本质上讲,beta 就像一个滚动平均值。滚动平均值会滞后于时间序列,因此如果存在漂移可能会非常不准确。

更好的方法是使用指数加权 ( EWMA )。

更好的方法是使用卡尔曼滤波器。

您可以在下面找到有关如何操作的说明:

https://www.quantopian.com/posts/quantopian-lecture-series-kalman-filters

参见 Torp 1997,彩色流动成像中的杂波抑制滤波器:一种理论方法,IEE Trans。Ultras.、Ferro. 和 Freq。控制。

另见 Hubbert 等人。2021,使用回归地面杂波滤波器改善天气雷达信号统计:理论与模拟,JTECH