回归模型中是否有所谓的“平均编码”(如虚拟编码和效果编码)?

机器算法验证 回归 方差分析 分类数据 回归系数 分类编码
2022-04-03 21:23:17

当我们使用分类预测变量执行回归分析时,我们可以使用 (1, 0),称为“虚拟编码”。这种情况下的系数表示组均值与参考组均值的偏差。我们还可以使用 (1, 0, -1),称为“效果编码”,在这种情况下,系数表示组均值与总均值的偏差。但是,如果我们通过从矩阵中排除截距列而不设置参考组来进行分析呢? ,其中个因子,观测值。如果是设计矩阵,则模型可以是:

Yij=μj+εij
j=1,,ki=1,,NX
Y=Xu+e
Y=(Y11Y1jYNk),X=(100100001001),μ=(μ1μk)

那么系数将代表组的平均值,对吗?那是平均编码还是平均编码?

1个回答

是的,这是可以做到的,并且偶尔会这样做。您所拥有的称为“级别意味着编码”。有关这方面的更多信息,它可能会帮助您在这里阅读我的答案:逻辑回归如何具有因子预测因子而没有截距? 有关我发现使用水平均值编码很方便的示例,请参阅:为什么最佳线性无偏预测器 (BLUP) 的估计值与最佳线性无偏估计器 (BLUE) 不同?

当您使用级别意味着编码时,有几件事需要注意。首先,你必须抑制截距以避免完美的多重共线性;请参阅:回归中的定性变量编码导致“奇点”)。其次,假设检验的含义不同:它们现在是检验均值是否不同于,而不是检验它们是否彼此不同;请参阅:了解 GLM 中的虚拟(手动或自动)变量创建0