在Elements of Statistical Learning的 2.3 节中,当文本介绍线性模型和 k-最近邻时,它指出:
线性模型对结构做出了巨大的假设,并产生了稳定但可能不准确的预测。k-最近邻方法做了非常温和的结构假设:它的预测通常是准确的,但可能不稳定。
在这种情况下,稳定的含义是什么?请详细说明上述方法。
在Elements of Statistical Learning的 2.3 节中,当文本介绍线性模型和 k-最近邻时,它指出:
线性模型对结构做出了巨大的假设,并产生了稳定但可能不准确的预测。k-最近邻方法做了非常温和的结构假设:它的预测通常是准确的,但可能不稳定。
在这种情况下,稳定的含义是什么?请详细说明上述方法。
Elements of Statistical Learning 一书似乎没有给出在这种情况下使用的“稳定性”概念的正式定义。索引中没有出现稳定或稳定的词。但是,以下引用似乎表明了预期的含义(第二版的第 16 页):
最小二乘法的线性决策边界非常平滑,并且显然可以拟合。它似乎在很大程度上依赖于线性决策边界是适当的假设。在我们将很快开发的语言中,它具有低方差和潜在的高偏差。另一方面,-最近邻程序似乎不依赖于对基础数据的任何严格假设,并且可以适应任何情况。然而,决策边界的任何特定子区域都取决于少数输入点及其特定位置,因此是摇摆不定的 - 高方差和低偏差。
使用线性模型,所有数据都有助于任何特定的预测. 这给出了低方差,因此它的预测可以是稳定的——但如果线性模型不是一个很好的近似值,则会出现高偏差。
随着-最近邻方法,对于任何特定的只有-最近的邻居有助于预测。结果方差更高,因此它的预测可能不稳定——尤其是如果远小于.收益是,仅使用接近点,近似值可能会更好,因此可能会降低偏差。一个问题是,如果是高维的,反正可能没有真正的近邻。
此外,为了定义邻居,我们需要一个距离度量,一个度量。结果-最近邻主要取决于度量的定义,而线性模型不使用此类信息。统计学习的书籍元素确实假设了欧几里德度量,当然也可以选择其他一些选择。为了使欧几里得度量有意义,不同的变量必须在可比较的范围内。例如,如果您将其中一个变量乘以 1000(例如,将单位从 km 更改为 m),这可能会发生巨大变化,-最近邻解,而它对线性模型完全没有影响。
以下是原始答案——作为历史文档:
在这种情况下,它可能意味着当输入数据变化一点,那么预测值也只会变化一点点,以一种易于理解的方式,而与-意思是,这不一定是真的,一些小的变化可能会导致预测发生惊人的大变化。