如何为内核回归选择合适的带宽?

机器算法验证 回归 内核平滑 纳达拉亚-沃森
2022-03-20 13:02:49

我试图了解如何为kernel regression. 请注意,这与内核密度估计无关(除非有人可以说服我可以使用相同的技术)。

这是我对此的想法:应该允许带宽减少为:

  • 1) 收集更多数据。
  • 2)在一定大小的数据中存在已知的变化/振荡(例如,预测变量的近似频率为 0.5 个单位的正弦波。)

无论我说的是什么,这些概念都是相同的LOWESS——Nadaraya -Watson它们都在估计过程中使用带宽。

我知道 Silverman 的 KDE 规则,但是内核回归是否有一个等效的方法来捕捉我上面的直觉?

当然,我可以使用蛮力网格搜索方法通过实验确定它,但这在计算上非常昂贵,并且在超过 2 维时不会缩放。谢谢你。

2个回答

我建议您阅读Racine 和 Li 于 2004 年在计量经济学杂志上发表的这篇漂亮的文章。他们开发了一个框架来使用核方法以非参数方式估计回归函数,并使用混合类型的协变量(分类或连续回归量)。在其他结果中,它们显示了交叉验证估计的一致性。这是非参数计量经济学文献中的经典文章。

毫无疑问,选择带宽参数的主要方法是交叉验证过程。但是,存在其他方法,例如引导(快速谷歌搜索给出:一篇关于为 np 内核回归选择带宽的博士论文

如果您有大量样本,则出于计算原因,留一法 CV 可能不是最佳选择。此外,如果数据由时间序列组成,CV 方法可能不再有效。您可以做的是继续进行保留验证。假设你有T观察。

  1. 将样本分成两部分:估计样本(观察 1 到Tk) 和一个保留样本 (obsTk+1T)。
  2. 使用估计样本计算估计量(首先Tkobs)作为一个函数h.
  3. 计算保留样本的样本外预测(最后kobs)作为一个函数h.
  4. 最小化平方预测误差h.
  5. 重新计算h使用与新数据输入相同的程序。

此外,如果 Nadaraya-Watson 估计器确实是一个 np 核估计器,那么 Lowess 就不是这种情况,它是一种局部多项式回归方法。您还可以使用基于小波的 Sieves(即通过函数的基础扩展)拟合回归函数,例如给定数据结构。

最后,密度的 np 核估计与条件均值的估计非常相似,这就是您在谈论“回归”时所想到的。np 核回归考虑估计E(Y|X), 在哪里Y是因变量,并且X是一个(希望是)外生预测因子。将 Y 替换为I(Yy)- 在哪里I表示等于的指示函数1当括号内的事件发生时 - 给出条件均值表达式 E(I(Yy)|X). 现在,运行一堆 np 内核回归E(I(Yy)|X)对于不同的值y. 这将提供一个估计的条件累积分布Y给定X. 现在对y,你有一个密度。那么到底有什么区别呢?只是选择因变量的问题。方法是一样的,除非您想重新缩放并对 CDF 施加限制...

以下是我在计量经济学课的学习笔记中可以找到的内容:

均方误差 (ASE) 为:

ASE=1nj=1n[m^h(Xj)mh(Xj)]2w(Xj)
在哪里m^h(Xj)是核回归的拟合值,w(x)=i=1nK(xXih)j=1nK(xXjh)其中 K 是选择的核函数,并且h是带宽。均方误差 (MASE) 如下:
MASE=E[ASE|X1=x1,...,Xn=xn]
寻找最佳(在最小 MASE 意义上)带宽的建议方法h是交叉验证:
CV(h)=1ni=1n[Yim^h,i1(Xj)]2w(Xi)
这必须最小化h. 可以证明,给定 x 处的 MSE 是方差和偏差的函数,并且取决于“接近”的数据点的数量和函数的曲率。