我怀疑为什么不对逻辑回归使用平方误差总和,而是使用最大似然估计,以及为什么不反之亦然。
已编辑
许多人要求我澄清这个问题,我的目的是了解使用平方误差损失函数来找到 β 与 MLE
我怀疑为什么不对逻辑回归使用平方误差总和,而是使用最大似然估计,以及为什么不反之亦然。
已编辑
许多人要求我澄清这个问题,我的目的是了解使用平方误差损失函数来找到 β 与 MLE
首先,最小二乘法(或平方误差之和)是一种可能的损失函数,可用于拟合您的系数。这在技术上没有任何问题。
然而,MLE 是一个更具吸引力的选择有很多原因。除了评论中的那些,这里还有两个:
计算效率
因为逻辑回归模型的似然函数是指数族的成员,所以我们可以使用Fisher 评分算法来有效地求解. 根据我的经验,这个算法只需要几个步骤就可以收敛。以数字方式求解最小二乘可能需要更长的时间。
根据@vbox 的评论,以免丢失:
如果成本函数是凸的,则任何机器学习模型(例如逻辑回归)的学习参数都会容易得多。而且,不难证明,对于逻辑回归,误差平方和的成本函数不是凸的,而对数似然的成本函数是凸的。
MLE 有很好的特性
使用 MLE 的解决方案具有很好的特性,例如:
除其他外。
但是使用最小二乘确实有一些好处
最小二乘往往对异常值更稳健,因为异常值最多可以错 1(因为),而在负对数似然损失函数下,距离可以任意大。
已编辑
我对 OPs 问题的解释是为什么我们使用 MLE 而不是平方损失函数来确定在以下形式的逻辑回归模型中:
在哪里
所以损失函数看起来像:
在哪里的取值 0/1。
当我谈论计算效率时,我的意思是找到这最小化了上述与似然函数上的 Fisher 评分。
也许我没有得到 ilanman 的回答以及这里的一些评论的意思,但是 afaiks,答案很简单
OLS = log L(高斯)
即 OLS 对应于具有正态/高斯分布的回归的对数似然。您可以通过记录高斯的公式来看到这一点 -将因素排除,您会看到 OLS 最大化可能性。
因此,对于高斯误差,OLS 估计是 MLE。
逻辑回归假设伯努利/二项式错误,这就是你不做 OLS 的原因。