机器算法验证 - 为什么不使用逻辑回归的平方误差总和，而是使用最大似然估计来拟合模型？ - 吾爱随笔录

机器算法验证物流广义线性模型最大似然最小二乘线性的

2022-04-03 19:38:14

我怀疑为什么不对逻辑回归使用平方误差总和，而是使用最大似然估计，以及为什么不反之亦然。

已编辑

许多人要求我澄清这个问题，我的目的是了解使用平方误差损失函数来找到 β 与 MLE

2个回答

首先，最小二乘法（或平方误差之和）是一种可能的损失函数，可用于拟合您的系数。这在技术上没有任何问题。

然而，MLE 是一个更具吸引力的选择有很多原因。除了评论中的那些，这里还有两个：

计算效率

因为逻辑回归模型的似然函数是指数族的成员，所以我们可以使用Fisher 评分算法来有效地求解 $\beta$ . 根据我的经验，这个算法只需要几个步骤就可以收敛。以数字方式求解最小二乘可能需要更长的时间。

根据@vbox 的评论，以免丢失：

如果成本函数是凸的，则任何机器学习模型（例如逻辑回归）的学习参数都会容易得多。而且，不难证明，对于逻辑回归，误差平方和的成本函数不是凸的，而对数似然的成本函数是凸的。

MLE 有很好的特性

使用 MLE 的解决方案具有很好的特性，例如：

但是使用最小二乘确实有一些好处

最小二乘往往对异常值更稳健，因为异常值最多可以错 1（因为 $(1-0)^2 = 1$ )，而在负对数似然损失函数下，距离可以任意大。

有关更多信息，请查看此或此。

已编辑

我对 OPs 问题的解释是为什么我们使用 MLE 而不是平方损失函数来确定 $\beta$ 在以下形式的逻辑回归模型中：

l o g i t (P (Y = 1 | X)) = x β

$logit(P(Y=1|X)) = x\beta$

在哪里 $P(Y=1|X) = f(x;\beta) = \frac{e^{x\beta}}{1 + e^{x\beta}} = \frac{1}{1 + e^{-x\beta}}$

所以损失函数看起来像：

\sum_{i} (y_{i} - f (x_{i}; β))^{2} = \sum_{i} (y_{i} - \frac{1}{1 + e^{- x β}})^{2}

$\sum_{i} (y_i - f(x_i;\beta))^2 = \sum_{i} (y_i - \frac{1}{1 + e^{-x\beta}})^2$

在哪里 $y_i$ 的取值 0/1。

当我谈论计算效率时，我的意思是找到 $\beta$ 这最小化了上述与似然函数上的 Fisher 评分。

也许我没有得到 ilanman 的回答以及这里的一些评论的意思，但是 afaiks，答案很简单

OLS = log L(高斯)

即 OLS 对应于具有正态/高斯分布的回归的对数似然。您可以通过记录高斯的公式来看到这一点 - $\sigma$ 将因素排除，您会看到 OLS 最大化可能性。

因此，对于高斯误差，OLS 估计是 MLE。

逻辑回归假设伯努利/二项式错误，这就是你不做 OLS 的原因。

其它你可能感兴趣的问题