为什么确定系数用于评估最小二乘线的拟合?

机器算法验证 回归
2022-04-03 12:19:04

决定系数为其中

r2=1SSresSStot
SSres=i=1n(yiyi^)2SStot=i=1n(yiy¯)2

为什么这用于评估最小二乘线的拟合?为什么比较基于查看而不是说或其他内容?SSres/SStotSSres/n

2个回答

这是一个非常广泛的问题,尽管看起来可能并非如此。两条评论:

  1. 您说“决定系数是”,但您给出的公式是否可以作为任何人的基本面定义尚不清楚。我将其描述为几个可用的计算公式之一。

  2. 您问“为什么使用它”,但这混淆或混淆了为什么使用决定系数的问题与为什么可能使用您引用的特定公式。

的吸引力在于 (a) 与相关系数或其类似物相关的简单且单一的度量,以及 (b) 没有原始变量的度量单位。在多元回归中,相关性是观察值与模型预测值之间的相关性。R2r

的缺点完全相同:没有总结测量可以捕捉回归的所有优点和局限性,并且在总结测量响应的尺度上缺乏拟合通常有很多意义。R2

为此,与您的暗示相反,如果间接使用,则经常使用。通过均方来总结残差是一个好主意,尽管它的平方根在维度上更好,并且由于详细的技术原因,有一个案例需要使用样本量减去拟合参数数量的除数。(查看残差的详细模式通常是一个更好的主意。)SSres/n

更广泛地说,经常被高估,因为低可能是值得的成就,而高可能是科学或实际失败。很大程度上取决于在科学上或实践上什么是有趣的、有用的和可能的。R2R2R2

可以被认为是可变性的总和SS_ 是使用最简单模型(均值)时的所有可变性。看看这个方程,它是每个平方偏差的总和,所有的变异性都没有被平均值解释(任何正好在平均值处的值都会对贡献 0 )。SS_ 是您的更复杂模型未解释的可变性,无论该模型是什么。例如,如果您在更复杂的模型中有两种方法,它们应该解释更多的数据/具有更小的因此 SSSStotSSSSresSSSSres/SStot是你没有解释的可变性的比例。如果你从 1 中减去无法解释的内容,那么你会得到你解释过的剩余部分的可变性。

这意味着什么。使用它的原因是因为它意味着一些明智和有用的东西。 或其他一些值也可能意味着什么,但不是一回事。如果您想出一个对您的目的更有用的数字,请使用它。SSres/n