为什么交叉熵基于伯努利或多努利概率分布?

数据挖掘 回归 损失函数 伯努利 交叉熵 物流
2022-03-03 01:31:39

当我们使用逻辑回归时,我们使用交叉熵作为损失函数。但是,根据我的理解和https://machinelearningmastery.com/cross-entropy-for-machine-learning/,交叉熵评估两个或多个分布是否彼此相似。并且假设分布是伯努利或多努利。

所以,我的问题是:为什么我们总是可以在回归问题中使用交叉熵,即伯努利?真实值和预测值是否总是遵循这样的分布?

2个回答

背景:
交叉熵的概念继承自信息论,用于理解和测量两个或多个事件分布的差异。您会欣赏的事件是一个离散的概念,并且在 ML 分类问题的情况下转换为这就是交叉熵仅适用于伯努利/多努利(分类分布)的原因。

关于你的问题:
不清楚你为什么提到逻辑回归并提出一个关于交叉熵(在逻辑回归的情况下也称为 LogLoss)对回归问题的适用性的问题(这个名字可能让你感到困惑?)。由于逻辑回归是一种分类模型,因此一切似乎都非常合适。

编辑 1: 如果您采用正态分布(因此是连续的)并使用 bin 对其进行离散化,则将其转换为multinoulli 分布,其中各个 bin 曲线下的区域充当事件/类的pi现在您可以轻松计算此变换分布的交叉熵,但是,它不再是正态分布。

在逻辑回归中,您假设每个目标值都遵循伯努利分布 - 以一定的概率取值 1p, 和 0 概率1p. 您的模型预测目标以一定的概率取值 1p^, 和 0 概率1p^. 在某种意义上,您是通过使用对数损失来比较这两种分布,预测的和实际的,是的。

这里有一个“回归”;逻辑回归只是具有 logit 链接函数的广义线性模型。您可以说您正在回归对数赔率(然后您使用反向链接函数,逻辑函数将其转化为概率)。当然,假设对数赔率关于您的预测平均值呈正态分布。

但这并不意味着对数损失适用于其他回归问题,不。您在这里计算的不是对数赔率的对数损失,而是概率。