哪些监督机器学习算法假设特征变量呈正态分布?

数据挖掘 线性回归 特征工程 监督学习
2022-03-10 10:12:35

我想了解监督机器学习模型所做的假设。

我多次听到它说“你需要确保你的特征变量是正态分布的,这样你的机器学习模型才能工作。” 然而,当我查看线性回归的假设时,我发现了许多相互矛盾的观点。

这篇文章和这篇文章提到了错误分布的正态性。后者甚至说特征不需要正态分布——只是错误。

统计解决方案表示,功能确实需要多元正态性,许多顶级初学者 ML 课程(如机器学习 AZ )也是如此。

维基百科特征不需要是正态分布的,但它对估计的精度有很大影响

哪些算法假设特征变量是正态分布的?对于那些不这样做的人,为什么扩展您的功能以使其更正态分布是有益的?

1个回答

如果您要区分统计和机器学习,那么您需要定义两者之间的边界,并且该边界将基于意见。哪些算法属于机器学习,哪些属于统计学,这是一个定义问题。

我将尝试举一些例子,而不是承诺其中一个。

  1. 线性回归期望误差(残差)呈正态分布。这来自最大似然和x2正态分布的 PDF 中的术语。
  2. 逻辑回归期望类成员的对数几率是线性的。这是针对具有相等方差的两个正态分布的类给出的。它遵循贝叶斯概率。
  3. 线性判别分析需要两个具有相同协方差矩阵的正态多元分布类。

即使您的数据违反假设,也可以应用这些算法,但结果(在统计数据中:参数估计)将不会(完全)正确。它们偏离实际值的程度取决于假设违反的程度。