我也参考了这里的Quora链接,但无法理解清楚。
谁能帮助我理解为什么以及如何通过一些理论或数学计算来低估真实后验分布的方差?
[编辑]:基于可视化添加我对 Quora 答案的理解。
红线是 p(x)。绿线是 q(x),近似分布。蓝线是KL散度。
当 q(x) 小于 p(x) 时,这些点的 KL 散度值为负。这些负值最终将有助于减少整体 KL 散度。因此,变分推理并不关心减少这些。它关心减少 q(x) 大于 p(x) 的 KL 散度。
由于变分推理不关心减少 q(x) 小于 p(x) 的 KL 散度值,因此最终的 q(x) 也可以具有低方差。因此,VI 可能会低估方差。
