机器算法验证 - Metropolis算法，目标分布是什么，如何构成？ - 吾爱随笔录

Metropolis算法，目标分布是什么，如何构成？

机器算法验证贝叶斯马尔可夫链蒙特卡罗大都会黑斯廷斯

2022-04-12 05:49:54

当我们做 Metropolis 抽样或 MCMC 时，我们需要一个目标分布 $P_{target}(\theta)$ , 和一个提案分布 $P_{proposal}(\theta)$ , 然后是一个值 $\theta_i$ 是通过生成的 $P_{proposal}(\theta)$ ，我们需要计算接受还是拒绝这个的概率 $\theta_i$ 通过 $P_{target}(\theta)$ ，正确的？

我的问题是，我们应该知道 $P_{target}(\theta)$ 在我们做这个 Metropolis 流程之前，对吧？那么这个目标分布是什么，和我之前的信念有关系吗？ $\theta$ ? 如果我已经知道了，为什么还要麻烦做这个 Metropolis 采样，我们不能只使用网格近似吗？

正如我在书中读到的那样，它需要可能性和先验的乘积 $\theta$ 作为目标分布，为什么？不同的先验信念会导致不同的目标分布，这是否意味着我们没有固定的期望目标分布？

3个回答

MCMC是一种生成样本的策略 $x(i)$ 在探索状态空间的同时 $X$ 使用马尔可夫链机制。这些是不可约且非周期性的马尔可夫链，具有 $P_{target}(\theta)$ 作为不变分布。

这种机制的构建是为了让链条在最重要的区域花费更多的时间。特别是，它的构造使得样本 $x(i)$ 模拟从目标分布中抽取的样本 $P_{target}(\theta)$ .

您的问题的答案是：当我们无法从中抽取样本时使用 MCMC $P_{target}(\theta)$ 直接，但可以评估 $P_{target}(\theta)$ 达到一个比例常数。为了澄清这一点，让我们表示 $P_{target}(\theta) = P(\theta | D)$ 在哪里 $D$ 是数据和 $P(\theta | D)$ 是我们的后验目标分布。

通常，精确计算 $P(\theta | D)$ 要求：

$P(\theta | D) = \frac{P(D|\theta) * P(\theta)}{P(D)}$

如您所见，我们的目标分布： $P(\theta | D) \propto P(D|\theta) * P(\theta)$ 直到比例常数。我们使用这个乘积（可能性和先验）作为 Metropolis 算法中的目标分布。该算法的接受准则只需要目标分布中的相对后验概率，而不需要绝对后验概率，因此我们可以在生成样本值时使用非归一化先验或非归一化后验。 $\theta$ .

本文的第 2 节给出了从后验抽样时的情况示例 $P_{target}(\theta)$ 很棘手。简而言之 4 个场景：1）贝叶斯推理和学习（请参阅我对页面上另一个答案的评论），2）统计力学，3）优化，4）惩罚似然模型选择。

我猜想缺少的“概念”是“维度的诅咒”（http://en.wikipedia.org/wiki/Curse_of_dimensionality）之一，这将使您尝试通过蛮力网格调查您的后验无关当维度你的后腰不是很小。

My problem is, we should know Ptarget(θ) before we doing this 
Metropolis process, right?

是的。MCMC 的全部目的是从（已知的）目标分布中采样，因为用其他方法处理它很困难。例如，目标分布可能是多维的，也许您只需要一个变量的边际分布，而整合目标分布是不可行或很难做到的（特别是对于分层模型，例如，其中每个未知参数都依赖于其他未知参数等）。

Then what is this target distribution, does it have to do with 
my prior belief of θ?

正如@Zhubarb 通过贝叶斯定理回答的那样，如果我们调用 $p(\theta)$ 你先前的信念 $\theta$ ，那么你的目标分布，也就是后验分布，是

p (θ | Data) = \frac{p (Data | θ) p (θ)}{P (Data)}

$p(\theta |\textrm{Data})=\frac{p(\textrm{Data}|\theta)p(\theta)}{P(\textrm{Data})}$

所以，是的，您先前的信念与您的目标分布有关：实际上，它是它的函数。

If I've already known it (the target distribution), why bother doing 
this Metropolis sampling, can't we just use grid approximation?

是的，如果你知道后验，你可以只使用网格近似。在一维问题中这似乎很容易做到，但在多维问题中它是一团糟。例如：当你有一个 10 维参数向量时，你将如何继续选择你的网格 $\theta$ ? 分布的最大值或最小值在哪里？并非在所有设置中都可以使用简单的目标分布，并且在这些设置中 MCMC 非常有用，因为它允许您从目标分布中抽取样本。

其它你可能感兴趣的问题

上一篇一个关于SEM和路径分析的问题下一篇如何找到一维数据中的簇数和每个簇的平均值