基于树的模型(例如梯度提升或随机森林)具有很多优势,例如对共线性和异常值具有鲁棒性。
我可以看到深度神经网络 (MLP) 对共线性具有鲁棒性。但它们对异常值是否稳健?为什么?
基于树的模型(例如梯度提升或随机森林)具有很多优势,例如对共线性和异常值具有鲁棒性。
我可以看到深度神经网络 (MLP) 对共线性具有鲁棒性。但它们对异常值是否稳健?为什么?
相对于标准的多元回归模型,我相信 MLP 对异常值更加稳健。出现这种情况有几个原因:
1)多元回归只有一次拟合数据。同时,通过改变用于拟合数据的节点和隐藏层的数量,MLP 有更多的机会来拟合数据。这种更灵活的拟合机制应该允许 MLP 低估异常值的影响(相对于 Y 或 X 变量);
2) MLPs 激活函数通常使用 Logit 回归机制 (Sigmoid) 或正切双曲线函数 (Tanh)。前者生成介于 0 和 1 之间的中间输出,而后者生成介于 -1 和 +1 之间的中间输出。这些激活函数进一步增强了 MLP 处理非线性事件和异常值的能力。
3) MLPs 可以包含正则化机制。后者应有助于解决多重共线性并减少异常值的影响。
此外,要诊断异常值对 MLP 的影响,您还可以进行交叉验证。
但是,如果您的主要目标是减少异常值的影响,则可以使用更透明的方法来处理它。正如您所提到的,基于树的模型当然是一种很好的方法。但是,还有一整套稳健回归模型。其中一些与正则化机制相结合来解决多重共线性问题。而且,这些模型更容易向非专业观众解释。
根据 Lin 和 Tegmark 的这篇文章(下),我认为答案是“视情况而定”。换句话说,正如他们所说,大多数深度学习算法都假设为对数正态分布。只要您的数据符合该假设,就没有问题。问题是当分布的尾部比对数正态分布更极端时,例如幂律或超指数。他们的图 1 和相关讨论概述了基于对数正态性对数种不同数据类型和解决方案缺乏尾部拟合的问题,特别是在深度学习 NN 的背景下。
Lin 和 Tegmark,来自深度动力学的关键行为:自然语言中的一个隐藏维度 arXiv:1606.06737
多层感知器 (MLP) 对异常值很敏感。
MLP 是通用逼近器,即它们可用于逼近任何目标函数。有了这样一个富有表现力的假设空间,MLP 可能会通过从噪声(异常值)中学习来冒过拟合的风险。
由于梯度消失问题,异常值也可能导致学习缓慢/无学习。激活在 0 或 1 的尾部饱和,并且在这些区域中梯度接近于零。
如果一个特征的方差比其他特征大几个数量级,它可能会主导目标函数(无法从其他特征中学习)。
因此,作为预处理步骤,强烈建议对训练数据应用标准化以减少异常值。
参考: