机器算法验证 - 变分自编码器和协方差矩阵 - 吾爱随笔录

变分自编码器和协方差矩阵

机器算法验证协方差自动编码器

2022-04-01 07:05:04

为什么来自变分自编码器的编码器映射到均值向量和标准差向量？为什么它不映射到均值向量和协方差矩阵？

是因为我们希望我们的潜在向量在分量之间具有零协方差吗？

3个回答

对角协方差矩阵是关于研究人员希望模型学习的潜在表示类型的明确陈述：一种可以建模为独立高斯的表示。

此外，@Firebug 在评论中指出，对称的 PD 矩阵可以对角化而不会丢失任何信息。换句话说，对于一些对称的 PD 矩阵 $A$ ，我们可以写 $A=PDP^\top$ 为了 $D$ 一些对角矩阵和 $P$ 可以选择正交。这在某种意义上保留了相同的信息 $A$ 旋转到具有正交坐标。

纯粹从抽象的角度来看，您没有理由必须仅限于学习由独立高斯组成的潜在表示。然而，计算方面似乎具有挑战性。

单个样本的标准 VAE 编码器产生潜在参数 $(\mu, \sigma)$ 它的输入。然后它使用重新参数化技巧从该分布中抽取随机样本。有 $d$ 每个元素中的 $\mu$ 和 $\sigma$ 所以潜在参数的总数是 $2d$ .

包含协方差矩阵的替代模型需要某种方法来生成协方差矩阵，因此编码器的输出为 $(\mu, \Sigma)$ .

如果你的潜在空间有维度 $d$ ，您正在对每个 $d$ 要点 $\mu$ 和每一个 $\frac{d(d+1)}{2}$ 要点 $\Sigma$ （因为 $\Sigma$ 根据定义是对称的），总共 $\frac{d(d+3)}{2}$ 元素。任何时候你有超过 1 个潜在维度，与对角线模型相比，协方差矩阵模型将有更多的潜在参数需要学习。

此外，多元正态分布要求 $\Sigma$ 是正定的，所以我们必须以某种方式保证，对于每个样本，我们生成一个 PD 矩阵。（使用替代策略，例如分解成标准差和相关矩阵 $\Omega$ ， IE $\Sigma = (\sigma I) \Omega (\sigma I)$ , 将增加有效参数的数量而不解决 PD 问题，因为现在我们必须保证 $\Omega$ 是PD。）

此外，我们还必须能够反向传播该过程，以便可以更新编码器权重。这可能会也可能不会，取决于用于生成的策略 $\Sigma$ 并从多元高斯中画出一个偏差。

这三个问题——更多参数、确保可区分性、正定性——具有挑战性。

如果您正在考虑进行研究以克服这些挑战，那就太好了！但有人必须问，为什么这是一个好模型？它解决了哪些对角高斯 VAE 模型或替代的非高斯 VAE 模型（例如 Dirichlet VAE）无法解决的问题？

我现在正在做这样的事情。

假设研究人员想要一个全协方差潜变量 $Z ~ N(mu, \Sigma)$ . 就像 VAE 中的乘法技巧一样，我们可以使用矩阵乘法技巧。仍然从高维单元高斯采样， $e \sim N(0, I)$ .

高 D 高斯的线性变换有这个属性：https ://www.statlect.com/probability-distributions/normal-distribution-linear-combinations#hid2 。如果我们希望变换后的协方差为 $\Sigma$ ，我们必须打 $e$ 与建议协方差的矩阵平方根 $\Sigma^{1/2}e \sim N(0, \Sigma)$ .

上面有人指出 $\Sigma$ 必须是对称正定的。这可以建模为秩 1 矩阵的总和，形成为每个分量向量的外积。这是二次形式的和，所以我们知道它至少是半正定的。为了得到正定，我们必须选择足够数量的分量向量。通过 CLT（> 30 个分量），非对角线条目将是零均值高斯，而主对角线保持正数。实际需要的组件数量可能取决于其他因素。

我用 MNIST 尝试了这个并得到了不错的结果。可能有一种方法可以通过参数化来强制执行 PD $\Sigma$ 使用 Inverse Wishart 先验，但这也需要参数之一是对称 PD 矩阵。

变分自动编码器基于变分推理。零协方差是一个假设，平均场变分族，它使优化更容易，因为潜在变量是独立的。

查看本文第2.3章：https ://arxiv.org/abs/1601.00670

他们还简要介绍了其他家庭：

扩展族的一种方法是在变量之间添加依赖关系（Saul 和 Jordan，1996；Barber 和 Wiegerinck，1999）；这称为结构化变分推理。

其它你可能感兴趣的问题

上一篇时间序列推理：Prophet 与 ARIMA 下一篇围绕比例显示置信区间的最佳方法是什么？