为什么不使用逻辑回归的平方误差总和,而是使用最大似然估计来拟合模型?

机器算法验证 物流 广义线性模型 最大似然 最小二乘 线性的
2022-04-03 19:38:14

我怀疑为什么不对逻辑回归使用平方误差总和,而是使用最大似然估计,以及为什么不反之亦然。

已编辑

许多人要求我澄清这个问题,我的目的是了解使用平方误差损失函数来找到 β 与 MLE

2个回答

首先,最小二乘法(或平方误差之和)是一种可能的损失函数,可用于拟合您的系数。这在技术上没有任何问题。

然而,MLE 是一个更具吸引力的选择有很多原因。除了评论中的那些,这里还有两个:

计算效率

因为逻辑回归模型的似然函数是指数族的成员,所以我们可以使用Fisher 评分算法来有效地求解β. 根据我的经验,这个算法只需要几个步骤就可以收敛。以数字方式求解最小二乘可能需要更长的时间。

根据@vbox 的评论,以免丢失:

如果成本函数是凸的,则任何机器学习模型(例如逻辑回归)的学习参数都会容易得多。而且,不难证明,对于逻辑回归,误差平方和的成本函数不是凸的,而对数似然的成本函数是凸的。

MLE 有很好的特性

使用 MLE 的解决方案具有很好的特性,例如:

  • 一致性:意味着有了更多的数据,我们对β越来越接近真实值。
  • 渐近正态性:意味着有了更多数据,我们的估计β近似正态分布,方差随O(1n)
  • 函数不变性:在处理多个参数(讨厌的参数)和计算轮廓似然性时具有很好的属性。

其他外

但是使用最小二乘确实有一些好处

最小二乘往往对异常值更稳健,因为异常值最多可以错 1(因为(10)2=1),而在负对数似然损失函数下,距离可以任意大。

有关更多信息,请查看

已编辑

我对 OPs 问题的解释是为什么我们使用 MLE 而不是平方损失函数来确定β在以下形式的逻辑回归模型中:

logit(P(Y=1|X))=xβ

在哪里P(Y=1|X)=f(x;β)=exβ1+exβ=11+exβ

所以损失函数看起来像:

i(yif(xi;β))2=i(yi11+exβ)2

在哪里yi的取值 0/1。

当我谈论计算效率时,我的意思是找到β这最小化了上述与似然函数上的 Fisher 评分。

也许我没有得到 ilanman 的回答以及这里的一些评论的意思,但是 afaiks,答案很简单

OLS = log L(高斯)

即 OLS 对应于具有正态/高斯分布的回归的对数似然。您可以通过记录高斯的公式来看到这一点 -σ将因素排除,您会看到 OLS 最大化可能性。

因此,对于高斯误差,OLS 估计是 MLE。

逻辑回归假设伯努利/二项式错误,这就是你不做 OLS 的原因。