机器算法验证 - 解释 log(y+1) 转换响应的回归系数 - 吾爱随笔录

解释 log(y+1) 转换响应的回归系数

机器算法验证回归线性模型解释回归系数

2022-04-01 05:28:16

我的测量值 ,..., ,...,取自因子设计实验中的一组复制品。 $y_1$ $y_i$ $y_n$

为了使用线性回归，我定义了我的响应。使用对数是为了使正态假设成立和模型拟合，并且使用 + 1 因为一些是 0。 $z_i = \log(y_i + 1)$ $y_i$

如果模型是，那么 \beta 的解释{所以这给出了几何平均值 ${z = a + \beta X}$ $\beta$

β = \sum_{i = 1}^{n} z_{i} / n = \sum_{i = 1}^{n} \log (y_{i} + 1) / n

${\beta = {\sum_{i=1}^nz_i}/n = {\sum_{i=1}^n\log(y_i + 1)}/n}$

\log (\prod_{i = 1}^{n} (y_{i} + 1)) = β n,

${{\log(\prod_{i=1}^n(y_i + 1))} = \beta n},$

\sqrt[n]{\prod_{i = 1}^{n} (y_{i} + 1)} = e^{β} .

$\sqrt[n]{\prod_{i=1}^n(y_i + 1)} = e ^\beta.$

我的问题是是否有一些反向变换或其他方式来解释的几何平均值而不是的作为的函数。我要问的原因是，对于很小（接近 0）的情况，的值低估了影响的大小。 $y_i$ $(y_i + 1)$ $\beta$ $y_i$ $\beta$

2个回答

用 GM 来思考的另一种方法是半弹性。

您的期望值模型类似于

E [\ln (y + 1) | x] = α + β \cdot x + γ \cdot z

$E[\ln(y+1) \vert x]= \alpha + \beta \cdot x + \gamma \cdot z$

对求导，得到这可以重写为 $x$

\frac{\partial E [\ln (y + 1) | x]}{\partial x} = \frac{1}{y + 1} \cdot \frac{\partial y}{\partial x} = β

$\frac{\partial E[\ln(y+1) \vert x]}{\partial x}= \frac{1}{y+1}\cdot \frac{\partial y}{\partial x} = \beta$

\frac{100 \cdot \frac{Δ y}{y + 1}}{Δ x} = 100 \cdot β,

$\frac{100 \cdot \frac{\Delta y}{y+1}}{\Delta x}=100 \cdot \beta,$

几乎相同。

ϵ = \frac{100 \cdot \frac{Δ y}{y}}{Δ x} .

$\epsilon = \frac{100 \cdot \frac{\Delta y}{y}}{\Delta x}.$

通常的做法是说当很大时，这两个方程基本相同，并将的百分比变化的一个额外单位相关联。 $y$ $\beta$ $y$ $x$

如果你的 X 是一组假人而不是连续的，你可以这样做。

说了这么多，最好仔细考虑模型中零点的起源。如果它们很多，与添加 1 或 0.001 相比，添加 0.01 通常可以极大地改变您的结果。由于常数的选择通常是任意的，因此使用不同的常数进行一些稳健性检查甚至调整常数都可以很好地工作。另一种选择是 GLM，就像具有异方差方差的 Poisson 一样，它放宽了均值方差相等假设，从而完全不需要任何变换。后者是我最喜欢的选择。

如果零来自与正数不同的过程，则解释会更加令人担忧。一个例子是假期支出和孩子的数量，其中很大一部分家庭不花钱。更多的孩子会降低一个家庭去度假的可能性，但如果有条件，更多的孩子会导致更高的支出。这里的零来自与正值不同的选择过程，因此需要更复杂的模型。

^{免责声明：我强烈建议不要拟合 log(y+1) 以防止负值的对数。这可能是常用的，但仅此一项还不能成为一种好的做法。在许多情况下，有更好的技术。在回归情况下，可以使用 GLM 或非线性回归。}

我们可以通过查看的导数用线性近似来估计它

\frac{\partial}{\partial x} f (x) = \frac{\partial}{\partial x} \sqrt[n]{\prod_{i = 1}^{n} (y_{i} + 1 + x)}

$\frac{\partial}{\partial x} f(x) = \frac{\partial}{\partial x}\sqrt[n]{\prod_{i=1}^n(y_i + 1 + x)}$

我们有

\frac{\partial}{\partial x} \log f (x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{y_{i} + 1 + x}

$\frac{\partial}{\partial x} \log f(x) = \frac{1}{n} \sum_{i=1}^{n}\frac{1}{y_i +1 +x}$

和

\frac{\partial}{\partial x} f (x) = f (x) \frac{\partial}{\partial x} [\log f (x)] = f (x) \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{y_{i} + 1 + x}

$\frac{\partial}{\partial x} f(x) = f(x)\frac{\partial}{\partial x} \left[\log f(x)\right] = f(x) \frac{1}{n} \sum_{i=1}^{n} \frac{1}{y_i +1 +x}$

那么线性近似是

\sqrt[n]{\prod_{i = 1}^{n} (y_{i})} \approx \sqrt[n]{\prod_{i = 1}^{n} (y_{i} + 1)} \cdot (1 - \bar{1 / y})

$\sqrt[n]{\prod_{i=1}^n(y_i)} \approx \sqrt[n]{\prod_{i=1}^n(y_i+1)} \cdot \left( 1- \overline{1/y}\right)$

所以和 $y$ $y+1$ 大约与 $1/y$ 并且您可以通过以下方式计算估计的范围 $1/y$ 和 $1/(y+1)$

计算示例：

set.seed(1)
n = 10
y = runif(n,2,10)

# true value 5.896058
prod(y)^(1/n)

# lowerbound 5.673379  
exp(mean(log(y+1))) * (1-mean(1/y))

# upperbound 5.911496
exp(mean(log(y+1))) * (1-mean(1/(y+1)))

其它你可能感兴趣的问题

上一篇何时将数据划分为逻辑回归中的训练和测试集？下一篇使用 R 中的回归消除因子对连续比例数据的影响