变分推理的缺点

机器算法验证 机器学习 数理统计 界限
2022-04-01 19:15:36

许多方法利用变分推理进行超参数计算。

变分推理的优缺点是什么?

(例如:它是否保证全局最优?)

2个回答

其他缺点:

  1. 结果往往在很大程度上取决于优化的起点。示例:这篇论文被大量引用但已知存在严重问题(基于它的软件包后来被撤回等)
  2. 弄清楚您正在优化的内容所需的计算通常非常复杂。(参见任何关于变分推理的论文。)

从好的方面来说, Mackay 的教科书 Information Theory, Inference and Learning Algorithms中对该主题进行了很好的介绍

简要地:

  • 缺点:近似,围绕它的理论很少
  • 优点:速度、可扩展性、新颖性

关于变分推理的理论不多。无论您如何定义“最佳”(下面的 qv),您可能都无法期望获得它。

VI 是一种通过优化来逼近难以计算的概率密度的方法。这是通过建议一个分布族并在 \mathcal Q中找到具有最低 Kullback–Leibler 散度的成员来完成的。的近似程度自然取决于你对的选择,但你可以假设时,它的某些方面会丢失pQqQKL(qp)pQpq

VI 也不保证你找到全局最优成员 Q。一个常见的选择是使用所谓的平均场变分族并通过坐标上升您可以找到局部最优值。qQq

一个很大的优势是 VI 非常快并且可以很好地扩展到大型数据集。与 MCMC 方法进行比较是很自然的,因为这些方法解决了相同的问题,请参阅此相关问题的答案,其中比较了两者


阅读:

David M. Blei、Alp Kucukelbir、Jon D. McAuliffe变分推理:统计学家评论