当我们使用分类预测变量执行回归分析时,我们可以使用 (1, 0),称为“虚拟编码”。这种情况下的系数表示组均值与参考组均值的偏差。我们还可以使用 (1, 0, -1),称为“效果编码”,在这种情况下,系数表示组均值与总均值的偏差。但是,如果我们通过从矩阵中排除截距列而不设置参考组来进行分析呢? ,其中个因子,观测值。如果是设计矩阵,则模型可以是:
那么系数将代表组的平均值,对吗?那是平均编码还是平均编码?
当我们使用分类预测变量执行回归分析时,我们可以使用 (1, 0),称为“虚拟编码”。这种情况下的系数表示组均值与参考组均值的偏差。我们还可以使用 (1, 0, -1),称为“效果编码”,在这种情况下,系数表示组均值与总均值的偏差。但是,如果我们通过从矩阵中排除截距列而不设置参考组来进行分析呢? ,其中个因子,观测值。如果是设计矩阵,则模型可以是:
那么系数将代表组的平均值,对吗?那是平均编码还是平均编码?
是的,这是可以做到的,并且偶尔会这样做。您所拥有的称为“级别意味着编码”。有关这方面的更多信息,它可能会帮助您在这里阅读我的答案:逻辑回归如何具有因子预测因子而没有截距? 有关我发现使用水平均值编码很方便的示例,请参阅:为什么最佳线性无偏预测器 (BLUP) 的估计值与最佳线性无偏估计器 (BLUE) 不同?
当您使用级别意味着编码时,有几件事需要注意。首先,你必须抑制截距以避免完美的多重共线性;请参阅:回归中的定性变量编码导致“奇点”)。其次,假设检验的含义不同:它们现在是检验均值是否不同于,而不是检验它们是否彼此不同;请参阅:了解 GLM 中的虚拟(手动或自动)变量创建。