用于大样本预测的核密度估计与机器学习

机器算法验证 机器学习 预测 内核平滑
2022-04-03 21:43:34

这是一个假设性且非常笼统的问题。抱歉,如果它太模糊。欢迎提出如何更好地集中注意力的建议。

假设您对一个内生变量之间的关系感兴趣y和一些外生变量x1,...,xk. 最终目标是预测新的实现y鉴于新的认识x的。你几乎不知道这种关系可以采取什么功能形式。

假设您有足够大的样本,以便您可以获得对联合概率密度的合理准确估计(通过核密度估计或类似方法)yx的。

然后你可以使用
(A)核密度估计(或一些类似的替代方案);
(B) 机器学习技术(惩罚回归,如 LASSO、岭、弹性网;随机森林;其他)

(当然还有其他选择,但包括那些会使问题过于广泛。)

问题:

  1. 什么时候你更喜欢A而不是B,什么时候你更喜欢B而不是A?
  2. 选择的关键决定因素是什么?
  3. 我们面临哪些主要的权衡取舍?

随意评论特殊情况并添加您自己的假设。

2个回答

(首先,我认为核密度估计是机器学习模型的一种形式,所以这是一个奇怪的二分法。但无论如何。)

如果您确实有足够的样本来进行良好的密度估计,那么通过 KDE 形成的贝叶斯分类器或其回归模拟 Nadaraya-Watson 模型会收敛到最优模型。这种方法的任何缺点都是纯粹的计算。(朴素的 KDE 需要将每个测试点与每个训练点进行比较,尽管如果你很聪明,你可以得到更好的结果。)另一个问题是带宽选择的巨大问题,但如果训练集足够好,这又是一次只是一个计算问题。

然而,在实践中,您实际上很少有足够好的样本来执行高度准确的密度估计。一些问题:

  • 随着维度的增加,KDE 迅速需要更多的样本;vanilla KDE 很少有用超过 10 个维度的数量级。
  • 即使在低维度上,基于密度估计的模型本质上也没有泛化能力;如果您的测试集有任何超出训练分布支持的示例,那么您可能会被搞砸。

这个缺点的原因是密度估计类型的模型只假设正在学习的函数是相当平滑的(相对于内核)。其他模型通过做出更强的假设,当假设得到合理满足时,可以用更少的训练点进行学习。如果您认为您尝试学习的函数可能或多或少是其输入的稀疏线性函数,那么 LASSO在学习具有给定样本数量的模型方面会比 KDE 好得多但如果事实证明是f(x)={1x>10otherwise, LASSO 基本上什么都不做,而 KDE 将很快或多或少地学习正确的模型。

从你的陈述来看,

最终目标是在给定的新实现的情况下预测的新实现。yx

,这已经表明您想要进行回归。我会选择(B)。即估计我不太确定您打算在什么上使用 KDE。我绝对不会用它来模拟的密度,因为这不是必需的。您的目标是在给定的情况下预测无需关心的密度。也许您的意思是使用 KDE 以某种方式估计条件密度但话又说回来,这是矫枉过正,因为大概应该足以预测估计相比,E[y|x]xyxxp(y|x)E[y|x]yE[y|x]p(y|x). 您在 (B) 中提到的方法是用于估计E[y|x]