例如,我们总是假设数据或信号误差是高斯分布?为什么?
我在stackoverflow上问过这个问题,链接:https ://stackoverflow.com/questions/12616406/anyone-can-tell-me-why-we-always-use-the-gaussian-distribution-in-machine-learni
例如,我们总是假设数据或信号误差是高斯分布?为什么?
我在stackoverflow上问过这个问题,链接:https ://stackoverflow.com/questions/12616406/anyone-can-tell-me-why-we-always-use-the-gaussian-distribution-in-machine-learni
我查看了关于 SO 的答案。我不认为他们是令人满意的。由于中心极限定理,人们经常争论正态分布。当问题涉及平均值时,这在大样本中可能没问题。但是机器学习问题可能更复杂,样本量并不总是足够大,无法应用正态近似。一些人主张数学上的方便。这是没有道理的,尤其是当计算机可以轻松处理增加的复杂性和计算机密集型重采样方法时。
但我认为这个问题应该受到质疑。谁说高斯分布“总是”被使用,甚至只是主要用于机器学习。塔勒布声称统计数据以高斯分布为主,尤其是在应用于金融时。这点他大错特错!
在机器学习中不是有时使用核密度分类方法、树分类器和其他非参数方法吗?最近邻方法不是用于聚类和分类吗?我认为他们是,而且我知道统计学家经常使用这些方法。
机器学习(以及统计数据)将数据视为确定性(因果)和随机部分的组合。数据的随机部分通常具有正态分布。(实际上,因果关系是相反的:变量随机部分的分布称为正态分布)。中心极限定理说大量变量的总和,每个变量对结果的影响很小,近似于正态分布。1. 为什么数据被视为正态分布?在机器学习中,我们希望将因变量表示为许多自变量的函数。如果这个函数是求和(或表示为一些其他函数的总和)并且我们建议自变量的数量非常多,那么因变量应该具有正态分布(由于中心极限定理)。2. 为什么错误看起来是正态分布的?因变量 ( ) 由确定性部分和随机部分组成。在机器学习中,我们试图将确定性部分表示为确定性自变量的总和:如果整个确定性部分由解释,则仅描述部分,因此应该具有正态分布。因此,如果误差分布是正态的,那么我们可能会认为该模型是成功的。否则模型中没有其他一些特征,但对的影响足够大(模型不完整)或模型不正确。
经常(但不总是!)假设正态分布的一个原因是:分布的性质通常会导致极其高效的计算。例如,在广义线性回归中,当您的分布是高斯分布时,解决方案在技术上是封闭形式:
至于其他分布,则必须使用迭代算法。技术说明:使用这种直接计算来查找既低效又不稳定。
通常,如果分布是正态变量的线性变换,则所需的理论数学和数值方法都相当容易。因此,通常首先在数据正常的假设下开发方法,因为问题更容易处理。后来,统计/机器学习研究人员解决了解决非正态性的更困难的问题。
我有同样的问题“对预测变量或目标进行高斯变换有什么好处?” 事实上,caret 包有一个预处理步骤可以实现这种转换。
我尝试对此进行推理并总结我的理解-
通常,自然中的数据分布遵循正态分布(少数例子,例如 - 年龄、收入、身高、体重等)。因此,当我们不了解潜在的分布模式时,它是最好的近似值。
大多数情况下,ML/AI 的目标是努力使数据线性可分,即使这意味着将数据投影到更高维空间以找到合适的“超平面”(例如 - SVM 内核、神经网络层、Softmax 等) .,)。这样做的原因是“线性边界总是有助于减少方差,并且是最简单、自然和可解释的”,除了降低数学/计算复杂性。而且,当我们瞄准线性可分性时,减少异常值、影响点和杠杆点的影响总是好的。为什么?因为超平面对影响点和杠杆点(又名异常值)非常敏感——为了理解这一点——让我们转移到一个二维空间,我们有一个预测变量(X)和一个目标(y),并假设存在良好的正相关在 X 和 y 之间。鉴于此,如果我们的 X 是正态分布的并且 y 也是正态分布的,那么您最有可能拟合一条直线,该直线的中心有许多点而不是端点(又名异常值、杠杆/影响点) )。因此,在对看不见的数据进行预测时,预测的回归线很可能几乎没有变化。您最有可能拟合一条直线,该直线的中心有许多点,而不是端点(又名异常值,杠杆/影响点)。因此,在对看不见的数据进行预测时,预测的回归线很可能几乎没有变化。您最有可能拟合一条直线,该直线的中心有许多点,而不是端点(又名异常值,杠杆/影响点)。因此,在对看不见的数据进行预测时,预测的回归线很可能几乎没有变化。
将上述理解外推到 n 维空间并拟合超平面以使事物线性可分确实很有意义,因为它有助于减少方差。