处理贝叶斯线性回归中的异常值

机器算法验证 回归 贝叶斯 线性模型 异常值 强大的
2022-04-03 20:42:11

我正在阅读这篇关于贝叶斯设置中的稳健线性回归的文章。可以在此处找到特定的博客文章:

http://twiecki.github.io/blog/2013/08/27/bayesian-glms-2/

有一点我无法处理。作者谈到了稳健回归,并表示在存在异常值的情况下,常客会使用非二次距离测量来评估拟合。然后他或她谈论假设数据是根据学生 t 分布分布的,尾部较重。

让我感到困惑的是(谈到有一个正常的先验):

正如你所看到的,拟合是相当偏斜的,我们的估计中有相当多的不确定性,正如各种不同的后验预测回归线所表明的那样。为什么是这样?原因是正态分布在尾部没有很多质量,因此异常值会强烈影响拟合。

我不明白为什么在价值观上较轻的权重会使情况变得更糟。任何关于为什么会这样的提示将不胜感激。

1个回答

在合适的参数值下考虑一组没有异常观察的数据。现在考虑将观察结果移到尾部(保持参数值和剩余数据不变)

如果密度的尾部很细,那么远处的观察是非常不可能的(给定参数的相对概率很低),所以看到它的机会......因此如果参数被大幅移动以适应它,可能性会更高(当然,多远是有限制的,因为您移动参数的次数越多,剩余数据的可能性就越小。

相比之下,带有肥尾的分布根本不认为这种观察是不寻常的,并且可能几乎不需要对其做出响应。