机器算法验证 - 回归模型中是否有所谓的“平均编码”（如虚拟编码和效果编码）？ - 吾爱随笔录

当我们使用分类预测变量执行回归分析时，我们可以使用 (1, 0)，称为“虚拟编码”。这种情况下的系数表示组均值与参考组均值的偏差。我们还可以使用 (1, 0, -1)，称为“效果编码”，在这种情况下，系数表示组均值与总均值的偏差。但是，如果我们通过从矩阵中排除截距列而不设置参考组来进行分析呢？，其中个因子，观测值。如果是设计矩阵，则模型可以是：

Y_{i j} = μ_{j} + ε_{i j}

$Y_{ij} = \mu_j + \varepsilon_{ij}$

j = 1, \dots, k

$j = 1, \ldots, k$

i = 1, \dots, N

$i = 1, \ldots, N$

X

$X$

Y = X u + e

${\bf Y} = {\bf X}u + e$

Y = (\begin{matrix} Y_{11} \\ ⋮ \\ Y_{1 j} \\ ⋮ \\ Y_{N k} \end{matrix}), X = (\begin{matrix} 1 & 0 & \dots & 0 \\ ⋮ & ⋮ & \dots & ⋮ \\ 1 & 0 & \dots & 0 \\ \dots & \dots & \dots & \dots \\ 0 & \dots & 0 & 1 \\ ⋮ & \dots & ⋮ & ⋮ \\ 0 & \dots & 0 & 1 \end{matrix}), μ = (\begin{matrix} μ_{1} \\ ⋮ \\ μ_{k} \end{matrix})

${\bf Y} = \begin{pmatrix} Y_{11} \\ \vdots \\ Y_{1j} \\ \vdots \\ Y_{Nk} \end{pmatrix}, \qquad {\bf X} = \begin{pmatrix} 1 &0 &\cdots &0 \\ \vdots &\vdots &\cdots &\vdots \\ 1 &0 &\cdots &0 \\ \cdots &\cdots &\cdots &\cdots \\ 0 &\cdots &0 &1 \\ \vdots &\cdots &\vdots &\vdots \\ 0 &\cdots &0 &1 \end{pmatrix}, \qquad \mu = \begin{pmatrix} \mu_1 \\ \vdots \\ \mu_k \end{pmatrix}$

那么系数将代表组的平均值，对吗？那是平均编码还是平均编码？