好的,这是一个非常基本的问题,但我有点困惑。在我的论文中,我写道:
可以通过计算(观察到的)Fisher 信息矩阵的对角元素的平方根的倒数来找到标准误差:
我的主要问题是:我所说的是否正确?
我有点困惑,因为在第 7 页的这个来源中它说:
信息矩阵是 Hessian 矩阵期望值的负数
(所以没有 Hessian 的倒数。)
而在第 7 页(脚注 5)的此来源中,它说:
观察到的 Fisher 信息等于.
(所以这是相反的。)
我知道减号以及何时使用它以及何时不使用它,但是为什么取反有区别?
好的,这是一个非常基本的问题,但我有点困惑。在我的论文中,我写道:
可以通过计算(观察到的)Fisher 信息矩阵的对角元素的平方根的倒数来找到标准误差:
我的主要问题是:我所说的是否正确?
我有点困惑,因为在第 7 页的这个来源中它说:
信息矩阵是 Hessian 矩阵期望值的负数
(所以没有 Hessian 的倒数。)
而在第 7 页(脚注 5)的此来源中,它说:
观察到的 Fisher 信息等于.
(所以这是相反的。)
我知道减号以及何时使用它以及何时不使用它,但是为什么取反有区别?
Yudi Pawitan 在他的书In All Likelihood中写道,在最大似然估计 (MLE) 处评估的对数似然的二阶导数是观察到的 Fisher 信息(另请参见本文档,第 1 页)。这正是大多数优化算法所喜欢optim的R回报:在 MLE 上评估的 Hessian。当负对数似然最小化,则返回负 Hessian。正如您正确指出的那样,MLE 的估计标准误差是观察到的 Fisher 信息矩阵的逆对角元素的平方根。换句话说: Hessian 的逆(或负 Hessian)的对角元素的平方根是估计的标准误差。
概括
正式地
让是一个对数似然函数。Fisher信息矩阵 是对称的包含条目的矩阵:
此外,Fisher 信息矩阵的逆矩阵是渐近协方差矩阵的估计量:
估计似然函数需要一个两步过程。
首先,声明对数似然函数。然后优化对数似然函数。没关系。
在 R 中编写对数似然函数,我们要求(在哪里表示对数似然函数),因为 R 中的 optim 命令默认最小化一个函数。-l 的最小化与 l 的最大化相同,这就是我们想要的。
现在,观察到的 Fisher 信息矩阵等于. 我们不必将 Hessian 乘以 -1 的原因是评估是根据 -1 倍的对数似然进行的。这意味着 optim 生成的 Hessian 矩阵已经乘以 -1。