是否使用 r-square 或调整后的 r-square,样本量较小,可能代表整个人口?

机器算法验证 回归 样本 r平方 人口
2022-03-25 06:44:16

我在网上读到,只有在处理样本而不是整个人口R2

我正在使用的数据是关于一系列现场教育研讨会的信息。每个数据点代表过去举行的一次研讨会,并包含有关该程序特征的各种信息。

在尝试决定是使用还是调整时,我可以看到硬币的两个不同面。R2R2

  1. 由于我的数据集包含我们迄今为止举办的所有研讨会,我正在与整个人群一起工作,所以我应该使用常规的旧R2

  2. 感兴趣的人群实际上是所有可能的研讨会,包括那些还没有发生的研讨会,特别是因为我在这个模型中的目标是更好地理解未来因素之间的关系。因此我正在查看一个样本,我应该使用adjusted-R2

哪种逻辑是正确的,我应该使用哪种相关性度量?

2个回答

并非对整个总体使用 R 平方,对样本使用调整后的 R 平方。他们各自提供不同的信息。R 平方是您的模型所考虑的数据变异性的比例。调整后的 R 平方考虑(即调整)数字模型中的解释性术语。R-squared 永远不能通过添加附加项来减少,因为您无法用更多的预测变量来解释更少的变化。另一方面,仅当添加的预测变量对模型有益时,调整后的 R 平方才会增加。从概念上讲,您可以将调整后的 R 平方视为惩罚复杂性。仅当增加的复杂性显着增加(即,超出偶然预期的程度)时,模型的预测能力才会调整后的 R 平方增加。添加较差的预测变量实际上可以降低调整后的 R 平方。那么真正的问题是,你想用这些信息来回答什么?

我认为您有两种不同的观点,没有正确或错误的答案。但我更倾向于选择 2。虽然在 1 中你说你已经包括了迄今为止举办的所有研讨会,但你的世界似乎也包括未来的研讨会。

但是接受 2 并不能解决 R 平方和调整后的 R 平方之间的问题。首先包含调整后的 R 平方的原因是,如果模型参数或协变量的大小相对于样本的大小较大,则普通的 R 平方往往会高估模型解释的变异量。它是模型解释的观测数据集的方差百分比,但它高估了模型将对从总体中随机抽样的新数据集解释的变异量。调整后的 R 平方努力解释这种偏差。但是,如果样本量相对于协变量 R 平方的数量非常大,则调整后的 R 平方将不会

因此,我认为调整后的 R 平方而不是 R 平方的选择更多的是样本大小与参数数量的相对大小,而不是样本是否代表整个人口或只是其中的一个随机部分。