与预测相关的术语“稳定”是什么意思?

机器算法验证 术语
2022-03-29 21:18:32

Elements of Statistical Learning的 2.3 节中,当文本介绍线性模型和 k-最近邻时,它指出:

线性模型对结构做出了巨大的假设,并产生了稳定但可能不准确的预测。k-最近邻方法做了非常温和的结构假设:它的预测通常是准确的,但可能不稳定。

在这种情况下,稳定的含义是什么?请详细说明上述方法。

2个回答

Elements of Statistical Learning 一书似乎没有给出在这种情况下使用的“稳定性”概念的正式定义。索引中没有出现稳定或稳定的词。但是,以下引用似乎表明了预期的含义(第二版的第 16 页):

最小二乘法的线性决策边界非常平滑,并且显然可以拟合。它似乎在很大程度上依赖于线性决策边界是适当的假设。在我们将很快开发的语言中,它具有低方差和潜在的高偏差。另一方面,k-最近邻程序似乎不依赖于对基础数据的任何严格假设,并且可以适应任何情况。然而,决策边界的任何特定子区域都取决于少数输入点及其特定位置,因此是摇摆不定的 - 高方差和低偏差。

使用线性模型,所有数据都有助于任何特定的预测x. 这给出了低方差,因此它的预测可以是稳定的——但如果线性模型不是一个很好的近似值,则会出现高偏差。

随着k-最近邻方法,对于任何特定的x只有k-最近的邻居有助于预测。结果方差更高,因此它的预测可能不稳定——尤其是如果k远小于n.收益是,仅使用接近点,近似值可能会更好,因此可能会降低偏差。一个问题是,如果x是高维的,反正可能没有真正的近邻。

此外,为了定义邻居,我们需要一个距离度量,一个度量结果k-最近邻主要取决于度量的定义,而线性模型不使用此类信息。统计学习的书籍元素确实假设了欧几里德度量,当然也可以选择其他一些选择。为了使欧几里得度量有意义,不同的变量必须在可比较的范围内。例如,如果您将其中一个变量乘以 1000(例如,将单位从 km 更改为 m),这可能会发生巨大变化,k-最近邻解,而它对线性模型完全没有影响。


以下是原始答案——作为历史文档:

在这种情况下,它可能意味着当输入数据x变化一点,那么预测值也只会变化一点点,以一种易于理解的方式,而与k-意思是,这不一定是真的,一些小的变化x可能会导致预测发生惊人的大变化。

我想用下面的比较来说明这两者。

在此处输入图像描述

正如您所看到的,方差越高,预测就越不稳定,而偏差越高,预测的均值就会离目标更远。线性回归将是稳定的,但它的偏差有时很高(过拟合);而 KNN 可能是准确的(低偏差)但可能不稳定(高方差)。