高斯过程回归 (GPR) 是否需要删除重复数据?

机器算法验证 高斯过程
2022-03-28 03:57:41

我将考虑非噪声观察,即 假设我们有以下 5 个训练示例的数据集,其中一个示例重复映射到由于对于 GPR,我们必须反转核矩阵,并且包含重复输入的核矩阵将不可逆,因此在使用无噪声观察进行 GPR 时,我们应该删除重复的训练示例。我的推理是否正确?欢迎评论y=f(x)(1,2,3,4,4)(2,4,6,8,8)

1个回答

重复的数据没有添加额外的信息,并且内核矩阵中的秩不足对过程是致命的。删除它们实际上没有任何推论后果。


也就是说,在数值上,如果某些点靠得太近(但不一定相同) ,核矩阵在这种情况下,您可以识别和处理问题点(删除、合并它们等),也可以处理一些(小)噪音:通常对我来说就足够了,或者您可以执行的谱分解,然后对于每个特征值,将其替换为用于一些小的\epsilon。KK^=K+ϵIϵ=106Kλiλi^=max{λi,ϵλmax}ϵ.这里的想法是,您已经有效地将矩阵的最小特征值相对于最大特征值固定,这可能是对矩阵的更“最小”干预。这是一个我不确定是否有任何好的解决方案的领域。

在这个线程上更详细地考虑了问题的数值部分:

用于贝叶斯优化的 GP 回归中的病态协方差矩阵