通过添加一个不显着的变量来提高对数似然性

机器算法验证 回归 模型选择 线性模型 可能性
2022-04-22 06:13:00

这个问题中,我询问了添加变量时对 AIC 的更改。事实证明,部分原因是 SAS 计算 AIC 的方式。

但是,我现在有两个模型,其中对数似然提高了很多:

这段代码

title 'Test - only forced';
ods select FitStatistics SolutionF;
proc mixed data = menfat.data method = ml;
 class &classvar;
 model  bmd_legneck_change_per_year = &bmddef bmdlegneck_1/solution;
run;

有-2LL 1631.9

使用此代码添加一个变量

title 'Test - add packyrs';
ods select FitStatistics SolutionF;
proc mixed data = menfat.data method = ml;
 class &classvar;
 model  bmd_legneck_change_per_year = &bmddef packyrs bmdlegneck_1/solution;
run;

-2LL 为 1607.6(在 1 df 上有 24.3 的高度显着差异),但 packyrs 的参数估计值为 0.0016,SE 为 0.005,ap 为 0.77。

这可能是由于改进了模型中其他变量的拟合吗?

编辑:响应宏;该模型是线性回归,其中因变量是身体质量(骨密度)每年的变化,自变量是是/否变量和连续变量的混合。

1个回答

显然,问题在于您添加到模型中的预测变量中缺少数据,使得对数似然在不同的尺度上,因此不具有可比性。有时这是一个非常隐蔽的问题,因为大多数软件默认情况下会默默地删除这些案例,让您弄清楚发生了什么(smh..),并且是大多数分析师最终会遇到的问题。我知道R有一个参数叫做na.action你可以传递给 GLM 来精确控制它对缺失 ( NA) 值的作用,但我不确定如何在 SAS 中控制它。

通常,只有在观察到对数似然中的奇怪行为后才能检测到此问题,例如基于 Wald 和基于 LRT 之间的巨大差异p-值,正如您在此处看到的。与此相关的是,虽然 Wald 和基于 LRT 的推理之间可能存在一些差异,但应该不会有太大差异,尤其是对于较大的样本量,因为两者是渐近等价的。