机器算法验证 - 关于 Fisher 信息矩阵以及与 Hessian 和标准误差的关系的基本问题 - 吾爱随笔录

关于 Fisher 信息矩阵以及与 Hessian 和标准误差的关系的基本问题

机器算法验证最大似然费希尔信息

2022-01-31 00:24:21

好的，这是一个非常基本的问题，但我有点困惑。在我的论文中，我写道：

可以通过计算（观察到的）Fisher 信息矩阵的对角元素的平方根的倒数来找到标准误差：

\begin{aligned} s_{\hat{μ}, {\hat{σ}}^{2}} = \frac{1}{\sqrt{I (\hat{μ}, {\hat{σ}}^{2})}} \end{aligned}

$\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*}$ 由于 R 中的优化命令最小化

- \log L

$-\log\mathcal{L}$ （观察到的）Fisher 信息矩阵可以通过计算 Hessian 的逆矩阵来找到：

\begin{aligned} I (\hat{μ}, {\hat{σ}}^{2}) = H^{- 1} \end{aligned}

$\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*}$

我的主要问题是：我所说的是否正确？

我有点困惑，因为在第 7 页的这个来源中它说：

信息矩阵是 Hessian 矩阵期望值的负数

（所以没有 Hessian 的倒数。）

而在第 7 页（脚注 5）的此来源中，它说：

观察到的 Fisher 信息等于 $(-H)^{-1}$ .

（所以这是相反的。）

我知道减号以及何时使用它以及何时不使用它，但是为什么取反有区别？

2个回答

Yudi Pawitan 在他的书In All Likelihood中写道，在最大似然估计 (MLE) 处评估的对数似然的二阶导数是观察到的 Fisher 信息（另请参见本文档，第 1 页）。这正是大多数优化算法所喜欢optim的R回报：在 MLE 上评估的 Hessian。当负对数似然最小化，则返回负 Hessian。正如您正确指出的那样，MLE 的估计标准误差是观察到的 Fisher 信息矩阵的逆对角元素的平方根。换句话说： Hessian 的逆（或负 Hessian）的对角元素的平方根是估计的标准误差。

概括

在 MLE 评估的负 Hessian 与在 MLE 评估的观察到的 Fisher 信息矩阵相同。
关于您的主要问题：不，通过反转（负）Hessian 可以找到观察到的 Fisher 信息是不正确的。
关于你的第二个问题：（负）Hessian 的逆是渐近协方差矩阵的估计量。因此，协方差矩阵的对角元素的平方根是标准误差的估计量。
我认为您链接到的第二个文档弄错了。

正式地

让 $l(\theta)$ 是一个对数似然函数。Fisher信息矩阵 $\mathbf{I}(\theta)$ 是对称的 $(p\times p)$ 包含条目的矩阵：

I (θ) = - \frac{\partial^{2}}{\partial θ_{i} \partial θ_{j}} l (θ), 1 \leq i, j \leq p

$\mathbf{I}(\theta)=-\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}l(\theta),~~~~ 1\leq i, j\leq p$ 观察到 的Fisher 信息矩阵很简单

I ({\hat{θ}}_{M L})

$\mathbf{I}(\hat{\theta}_{\mathrm{ML}})$ ，以最大似然估计 (MLE) 评估的信息矩阵。Hessian 定义为：

H (θ) = \frac{\partial^{2}}{\partial θ_{i} \partial θ_{j}} l (θ), 1 \leq i, j \leq p

$\mathbf{H}(\theta)=\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}l(\theta),~~~~ 1\leq i, j\leq p$ 它只是似然函数关于参数的二阶导数矩阵。因此，如果您最小化负对数似然，则返回的 Hessian 等效于观察到的 Fisher 信息矩阵，而在最大化对数似然的情况下，负Hessian 是观察到的信息矩阵。

此外，Fisher 信息矩阵的逆矩阵是渐近协方差矩阵的估计量：

V a r ({\hat{θ}}_{M L}) = [I ({\hat{θ}}_{M L})]^{- 1}

$\mathrm{Var}(\hat{\theta}_{\mathrm{ML}})=[\mathbf{I}(\hat{\theta}_{\mathrm{ML}})]^{-1}$ 标准误差是协方差矩阵的对角元素的平方根。对于最大似然估计的渐近分布，我们可以写

{\hat{θ}}_{M L} \overset{a}{\sim} N (θ_{0}, [I ({\hat{θ}}_{M L})]^{- 1})

$\hat{\theta}_{\mathrm{ML}}\stackrel{a}{\sim}\mathcal{N}\left(\theta_{0}, [\mathbf{I}(\hat{\theta}_{\mathrm{ML}})]^{-1}\right)$ 在哪里

θ_{0}

$\theta_{0}$ 表示真正的参数值。因此，最大似然估计的估计标准误差由下式给出：

S E ({\hat{θ}}_{M L}) = \frac{1}{\sqrt{I ({\hat{θ}}_{M L})}}

$\mathrm{SE}(\hat{\theta}_{\mathrm{ML}})=\frac{1}{\sqrt{\mathbf{I}(\hat{\theta}_{\mathrm{ML}})}}$

估计似然函数需要一个两步过程。

首先，声明对数似然函数。然后优化对数似然函数。没关系。

在 R 中编写对数似然函数，我们要求 $-1*l$ （在哪里 $l$ 表示对数似然函数），因为 R 中的 optim 命令默认最小化一个函数。-l 的最小化与 l 的最大化相同，这就是我们想要的。

现在，观察到的 Fisher 信息矩阵等于 $(-H)^{-1}$ . 我们不必将 Hessian 乘以 -1 的原因是评估是根据 -1 倍的对数似然进行的。这意味着 optim 生成的 Hessian 矩阵已经乘以 -1。

其它你可能感兴趣的问题

上一篇什么是神经网络中好的初始权重？下一篇一个简单的逻辑回归模型如何在 MNIST 上实现 92% 的分类准确率？