当我们使用逻辑回归时,我们使用交叉熵作为损失函数。但是,根据我的理解和https://machinelearningmastery.com/cross-entropy-for-machine-learning/,交叉熵评估两个或多个分布是否彼此相似。并且假设分布是伯努利或多努利。
所以,我的问题是:为什么我们总是可以在回归问题中使用交叉熵,即伯努利?真实值和预测值是否总是遵循这样的分布?
当我们使用逻辑回归时,我们使用交叉熵作为损失函数。但是,根据我的理解和https://machinelearningmastery.com/cross-entropy-for-machine-learning/,交叉熵评估两个或多个分布是否彼此相似。并且假设分布是伯努利或多努利。
所以,我的问题是:为什么我们总是可以在回归问题中使用交叉熵,即伯努利?真实值和预测值是否总是遵循这样的分布?
背景:
交叉熵的概念继承自信息论,用于理解和测量两个或多个事件分布的差异。您会欣赏的事件是一个离散的概念,并且在 ML 分类问题的情况下转换为类。这就是交叉熵仅适用于伯努利/多努利(分类分布)的原因。
关于你的问题:
不清楚你为什么提到逻辑回归并提出一个关于交叉熵(在逻辑回归的情况下也称为 LogLoss)对回归问题的适用性的问题(这个名字可能让你感到困惑?)。由于逻辑回归是一种分类模型,因此一切似乎都非常合适。
编辑 1: 如果您采用正态分布(因此是连续的)并使用 bin 对其进行离散化,则将其转换为multinoulli 分布,其中各个 bin 曲线下的区域充当事件/类的pi。现在您可以轻松计算此变换分布的交叉熵,但是,它不再是正态分布。
在逻辑回归中,您假设每个目标值都遵循伯努利分布 - 以一定的概率取值 1, 和 0 概率. 您的模型预测目标以一定的概率取值 1, 和 0 概率. 在某种意义上,您是通过使用对数损失来比较这两种分布,预测的和实际的,是的。
这里有一个“回归”;逻辑回归只是具有 logit 链接函数的广义线性模型。您可以说您正在回归对数赔率(然后您使用反向链接函数,逻辑函数将其转化为概率)。当然,假设对数赔率关于您的预测平均值呈正态分布。
但这并不意味着对数损失适用于其他回归问题,不。您在这里计算的不是对数赔率的对数损失,而是概率。