计算线性回归时使用年份?

机器算法验证 回归 自习
2022-04-11 05:57:33

我是统计新手,目前正在尝试解决我的课程作业。

任务是计算包含年份和当时人口中失业率百分比的数据集的线性回归分析/回归方程。

虽然我不完全确定如何做到这一点,但我的主要问题基本上是:当使用年份进行分析时,应该在计算中使用实际年份(2009 年、2010 年等)还是应该将它们替换为 1 ,2,3 等?

4个回答

第二个系列可以写成第一个减去 2008 年。

  1. 当我们从基督诞生或数据系列开始计算年份开始计算时,它是否应该改变我们对失业随时间变化的看法

  2. 查看最小二乘方程并尝试计算从预测变量中减去常数的效果。估计系数和预测值会发生什么变化,以及如何变化?

  3. 通过两种方式执行回归来检查。

原则上,这并不重要——只有截距项会受到影响。假设您要估计回归 Y = a + b X + e。请记住,斜率系数可以计算为 b = Cov(Y, X) / Var(X),并且 a = Ym - b Xm,其中 Ym 和 Xm 是各个变量的样本均值。现在,让我们在 X 变量中添加一个常量 C(对应于在您的示例中切换年份定义): b = Cov(Y, X + C) / Var(X + C) = [Cov(Y, X) + Cov (Y, C)] / [Var(X) + Var(C)]。此外,Cov(Y, C) = Var(C) = 0,因为 C 是一个常数。这让我们回到与之前相同的 b 表达式。对于截距,我们得到 a = Ym - b*(Xm + C)。

在实践中,您有时会在对变量使用非常大的值时遇到问题。这是因为您可能会遇到计算机数值精度水平的限制,但在您的情况下,我无法想象它会有所作为。

a)如果您确定(或者在这种情况下特别告知)您只需要使用年份作为线性变量(没有交互作用,没有二次项,没有其他项),并且您只有一个时间序列,那么在这种情况下它不会'没有任何区别(只会导致恒定的偏移量)。所以不妨照原样使用year

b)一般),如果您正在研究一个任意未知建模问题,您可能需要二次、高阶或非线性项,那么您应该定义一个时间索引:yearx = year - 2007我们通常将时间索引定义为从 1 开始,而不是 0,因为许多有用的函数反对 0,例如 log、1/x 等。(但这比您的示例更广泛。)

c) 还有另一个更基本的原因:如果您有多个时间序列,每个时间序列都有不同的开始年份(例如,一个系列从 1996 年开始,另一个从 2008 年开始)。然后,如果您想关注相对时间滞后,并从模型系数、图表等中删除硬年份数字,请再次计算yearx = year - start_year每个系列。

是的,您可以使用年作为线性回归中的预测变量。基本代码将是结果 = 年。这种模型的贝塔系数可以让您预测未观察到的年份的结果。

重要的是要记住,beta 系数的 p 值是检验 Year 和 Outcome在所有年份之间是否存在线性关系即使第一年和去年明显不同,这通常也是不真实的。如果您真的对第一年是否与上一年有显着差异感兴趣,您应该将数据限制在这两年,在这种情况下,线性回归不是合适的方法。