许多方法利用变分推理进行超参数计算。
变分推理的优缺点是什么?
(例如:它是否保证全局最优?)
许多方法利用变分推理进行超参数计算。
变分推理的优缺点是什么?
(例如:它是否保证全局最优?)
其他缺点:
从好的方面来说, Mackay 的教科书 Information Theory, Inference and Learning Algorithms中对该主题进行了很好的介绍。
简要地:
关于变分推理的理论不多。无论您如何定义“最佳”(下面的 qv),您可能都无法期望获得它。
VI 是一种通过优化来逼近难以计算的概率密度的方法。这是通过建议一个分布族并在 \mathcal Q中找到具有最低 Kullback–Leibler 散度的成员来完成的。你的近似程度自然取决于你对的选择,但你可以假设时,它的某些方面会丢失。
VI 也不保证你找到全局最优成员 Q。一个常见的选择是使用所谓的平均场变分族并通过坐标上升您可以找到局部最优值。
一个很大的优势是 VI 非常快并且可以很好地扩展到大型数据集。与 MCMC 方法进行比较是很自然的,因为这些方法解决了相同的问题,请参阅此相关问题的答案,其中比较了两者。
阅读:
David M. Blei、Alp Kucukelbir、Jon D. McAuliffe变分推理:统计学家评论