机器算法验证 - 为什么我们在使用 MLE（最大似然估计）时总是将 log() 放在联合 pdf 之前？ - 吾爱随笔录

为什么我们在使用 MLE（最大似然估计）时总是将 log() 放在联合 pdf 之前？

机器算法验证最大似然

2022-04-09 07:17:28

也许这个问题很简单，但我真的需要一些帮助。当我们使用最大似然估计（MLE）来估计参数时，为什么我们总是将 log() 放在联合密度之前？用总和代替乘积？但为什么？维基百科说这会很方便。为什么？谢谢你。

2个回答

除了对您的问题的评论中提到的原因之外，还有另一个重要的原因：在应用最大似然估计时，我们基本上解决了关于未知系数的最大化问题。回想一下，找到一个函数的全局最大值并不是一件简单的事情，如果我们有很多未知数，并且当目标函数缺乏（或不知道它是否具有）某些一般属性时，比如凹度（在最大化的情况下），尤其是当最大化将通过迭代过程完成时（大多数似然函数就是这种情况）。此外，当参数空间不紧凑时（例如，当您估计方差时，目标函数的凹度是证明 ML 估计量一致性的重要条件， $\sigma^2$ ，参数空间不是紧凑的，而是从下面打开的，因为通过概念 $\sigma^2 >0$ .

所以我们希望我们的目标函数相对于参数是凹的，以保证全局最大值。在线性模型中，如果我们在变量中具有凹度，则我们在参数中获得凹度。现在有许多广泛使用的分布，其密度函数不是凹的，但它们的自然对数是（我们称此类函数为“log-concave”）。正态密度是最突出的例子：函数

f_{X} (x) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{1}{2} (\frac{x - μ}{σ})^{2}}

$f_X(x) =\frac {1}{\sigma\sqrt{2\pi}}e^{-\frac 12 (\frac{x-\mu}{\sigma})^2}$ 既不凸也不凹

x

$x$ （它有一个中间凹的部分，尾部是凸的）。但是功能

\ln f_{X} (x) = \ln (\frac{1}{σ \sqrt{2 π}}) - \frac{1}{2} {(\frac{x - μ}{σ})}^{2}

$\ln f_X(x) =\ln \left(\frac {1}{\sigma\sqrt{2\pi}}\right) -\frac 12 \left(\frac{x-\mu}{\sigma}\right)^2$

是全局凹入的 $x$ . （然后利用ML估计器的不变性，我们可以通过对未知参数向量进行适当的一对一变换来证明该函数在重新参数化的向量中是凹的）。

但总的来说，基本点是取对数会产生目标函数的凹度，这是一个非常理想的属性。

除了 Alecos 写的数学原因，我再给你一个计算的原因。请记住，似然函数只不过是随机变量的联合密度（表示为参数的函数），即

P r (x) = P r (x_{1}) \cdot P r (x_{2}) \cdot \dots \cdot P r (x_{n}) = \prod_{i}^{n} P r (x_{i})

$Pr(\mathbf{x}) = Pr(x_{1})\cdot Pr(x_{2})\cdot\ldots\cdot Pr(x_{n}) = \prod_{i}^{n} Pr(x_{i})$ 对于 iid 数据。概率密度

0 \leq P r (x_{i}) \leq 1

$0 \leq Pr(x_{i}) \leq 1$ 对所有人

i

$i$ , 所以这个数

P r (x)

$Pr(\mathbf{x})$ 变得非常小，因为

n

$n$ 增加。假设所有

P r (x_{i}) = 0.5

$Pr(x_{i}) = 0.5$ 和

n = 1000

$n=1000$ ，然后

\prod_{i}^{n} P r (x_{i}) = {0.5}^{1000} = 9.33 \cdot 10^{- 302}

$\prod_{i}^{n} Pr(x_{i}) = 0.5^{1000} = 9.33 \cdot 10^{-302}$ 仅适用于稍大或稍小的数据集

P r (x_{i})

$Pr(x_{i})$ ，我们超出了软件包的可表示范围。例如，R 中最小的可表示数是

2.225074 \cdot 10^{- 308}

$2.225074\cdot10^{-308}$ . 另一方面，我们有

\log (P r (x)) = \sum_{i}^{n} \log (P r (x_{i})) = 1000 \cdot \log (0.5) = - 693.1472

$\log(Pr(\mathbf{x})) = \sum_{i}^{n} \log \left( Pr(x_{i}) \right) = 1000\cdot \log(0.5) = -693.1472$ 甚至对于

n = 1000000

$n=1000000$ 我们只有

\log (P r (x)) = 1000000 \cdot \log (0.5) = - 693147.2

$\log(Pr(\mathbf{x})) = 1000000\cdot \log(0.5) = -693147.2$ .

其它你可能感兴趣的问题

上一篇聚类（kmeans）是否适合对一维数组进行分区？下一篇正确估计 glmmLasso 函数的参数