数据挖掘 - 为什么交叉熵基于伯努利或多努利概率分布？ - 吾爱随笔录

数据挖掘回归损失函数伯努利交叉熵物流

2022-03-03 01:31:39

当我们使用逻辑回归时，我们使用交叉熵作为损失函数。但是，根据我的理解和https://machinelearningmastery.com/cross-entropy-for-machine-learning/，交叉熵评估两个或多个分布是否彼此相似。并且假设分布是伯努利或多努利。

所以，我的问题是：为什么我们总是可以在回归问题中使用交叉熵，即伯努利？真实值和预测值是否总是遵循这样的分布？

2个回答

背景：
交叉熵的概念继承自信息论，用于理解和测量两个或多个事件分布的差异。您会欣赏的事件是一个离散的概念，并且在 ML 分类问题的情况下转换为类。这就是交叉熵仅适用于伯努利/多努利（分类分布）的原因。

关于你的问题：
不清楚你为什么提到逻辑回归并提出一个关于交叉熵（在逻辑回归的情况下也称为 LogLoss）对回归问题的适用性的问题（这个名字可能让你感到困惑？）。由于逻辑回归是一种分类模型，因此一切似乎都非常合适。

编辑 1： 如果您采用正态分布（因此是连续的）并使用 bin 对其进行离散化，则将其转换为multinoulli 分布，其中各个 bin 曲线下的区域充当事件/类的pi。现在您可以轻松计算此变换分布的交叉熵，但是，它不再是正态分布。

在逻辑回归中，您假设每个目标值都遵循伯努利分布 - 以一定的概率取值 1 $p$ , 和 0 概率 $1-p$ . 您的模型预测目标以一定的概率取值 1 $\hat{p}$ , 和 0 概率 $1-\hat{p}$ . 在某种意义上，您是通过使用对数损失来比较这两种分布，预测的和实际的，是的。

这里有一个“回归”；逻辑回归只是具有 logit 链接函数的广义线性模型。您可以说您正在回归对数赔率（然后您使用反向链接函数，逻辑函数将其转化为概率）。当然，假设对数赔率关于您的预测平均值呈正态分布。

但这并不意味着对数损失适用于其他回归问题，不。您在这里计算的不是对数赔率的对数损失，而是概率。

其它你可能感兴趣的问题