机器算法验证 - ABC：为什么不使用距离度量作为伪似然呢？ - 吾爱随笔录

ABC：为什么不使用距离度量作为伪似然呢？

机器算法验证可能性近似贝叶斯计算

2022-04-09 22:04:41

当无法直接计算似然度时，我已经阅读了ABC 拒绝算法，我的问题是：如果我们必须引入距离度量 $\rho(D,D')$ 无论如何，为什么不使用该度量作为伪似然来加权 $\theta$ 产生的 $D'$ 而不是对任意值设置阈值 $\epsilon$ ?

看起来这在高维数据空间中效率更高，因为您不太可能经常“命中”靠近原始数据集。

我意识到这种方法接近（相同？）假设一些测量误差模型（ $\rho$ ) 的可能性。但这真的比阈值方法的近似误差更糟糕吗？

2个回答

这个想法已经在几篇论文中实现。 Richard Wilkinson 的 2013 年 SAGMB 论文详细探讨了该主题，并精确地链接到假设测量误差模型。

事实证明，引入一个参数很有用 $\epsilon$ 对应于测量误差尺度的权重函数。这与标准 ABC 阈值类似；如果取得太小，算法效率非常低，但如果太大，则近似值很差。

一旦引入了这个参数，就不清楚加权模拟是比阈值更好还是更差。根据我的经验，两者之间的差异很小，尤其是与其他调整选择的效果相比，例如 $\epsilon$ 和汇总统计。然而，连续权重在某些算法中是一个有利的特征，例如防止ABC 过滤算法中的粒子退化并允许模拟 ABC 似然性。

我认为对汇总统计数据的分布进行建模比阈值化更可取，只要您能够找到一个好的候选分布。例如，作者在这里使用了多元正态近似，这是由统计数据的渐近正态性证明的。这里使用了相同的方法，即综合似然法，在一个案例中使用了112 个汇总统计数据。如果不对统计数据的分布做出参数假设，我认为您不能使用那么多统计数据。多元正态近似的其他优点是协方差矩阵会自动考虑统计数据的相关性和尺度，并且您不必选择容差。

披露：我正在与两篇论文的作者合作，所以我可能会有偏见。

其它你可能感兴趣的问题

上一篇威尔逊对样本比例的调整下一篇如何测试两个数据集之间的均方误差是否存在显着差异？