分类回归任务异常混淆

机器算法验证 回归 分类
2022-04-06 12:17:34

分类和回归之间的区别解释了模型输出。我知道分类模型具有离散和回归连续输出。

我想关注这些分类和回归任务之间的分类细微差别,尽管这一直困扰着我并且我在很多地方都遇到过,例如

在某些情况下,分类算法会以概率的形式输出连续值。同样,回归算法有时可以输出整数形式的离散值。

也许来源不是最好的例子,但这不是我看到这样声明的第一篇文章。

带有概率输出的分类似乎很奇怪,因为:概率是连续区间[0,1] 中的任意数字。有人可以详细说明并提及特定型号吗?

恕我直言,许多模型都可以针对其中任何一个进行改造,但是任务和模型是不同的东西。

我认为一个可能适合这种情况的示例,但我不确定是否有效的是具有 softmax 外部节点的神经网络,其在 [0,1] 中具有连续输出,但我们在分类任务中选择节点中的最大值。否则,我们说的是生成模型(例如,VAE 的解码器部分)。

是否有一些正式的定义包含它,或者我应该停止阅读随机文章?

2个回答

从头开始:

我应该停止阅读随机文章吗?

也许你应该先学习一门统计学、数据科学或机器学习的课程,然后再重新阅读“随机文章”。网上有很多宝石,但垃圾更多,没有扎实的基础可能很难区分它们。

带有概率输出的分类似乎很奇怪

这是主观的。也许概率并不总是分类的最佳标准,但有时它们是,甚至更常见的是另一个连续值(也许预期的收益/损失,部分来自概率)是。作为(人工)示例:

假设你是一家雨伞店老板,天气预报说今天有 70% 的几率下雨。你是开店,还是给员工放一天假?如果你开店,但没有下雨,你实际上是在赔钱。如果你不开店,但下雨,你已经放弃了利润。根据保持商店营业的成本和您在下雨天获得的利润以及下雨的可能性,您可以做出最佳决定。

恕我直言,许多模型都可以进行改造

例如:广义线性模型。根据“链接函数”,它们可用于线性回归、泊松回归、逻辑回归(这将为您提供概率并允许分类)等等。

模型的选择取决于(或应该取决于)生成数据的假设过程。在统计学中,人们通常假设一个与输入和输出变量相关的定律,并在其上叠加随机噪声(“错误”)。根据噪声的形式(概率分布),您会得到不同的模型。

例如,如果您假设噪声是加性和高斯的,这会导致普通的线性回归。另一方面,如果您假设“噪音”类似于硬币翻转(“伯努利过程”),您将得到逻辑回归。

希望有帮助。

任何在交叉熵损失函数上训练的神经网络都执行分类预测,但原始(训练的)模型输出是概率分布(归一化后,可能是 softmax)。

输出分布是概率方法的标志。该模型本身并不进行预测,但您可以将模型返回视为预测分布。这是使用交叉熵函数训练模型的理论基础。预测来自于根据分布做出最大化正确概率的选择。为了从模型中获得单个预测以用于应用程序,我们根据从神经网络模型中获得的分布猜测最可能的预测。

任何区别都是用于定义模型的方法和用于求解它的数学优化方法的结果。