什么是分布方面的不对称度量?

数据挖掘 统计数据 可能性 分配 数学
2022-02-16 03:56:06

我试图理解 KL-Divergence,并且正在浏览它的维基百科文章。它说以下

DKLP(X)P(Y),

与信息的变化相比,它是一种分布方面的不对称度量,因此不符合传播的统计度量标准——它也不满足三角不等式。

分布方式不对称测量的含义是什么?有对称的度量吗?一个数量应该遵循哪些规则才能成为价差的统计指标?

1个回答

分布方式不对称测量的含义是什么?

前向)KL 散度是分布不对称的,因为如果将其计算为

DKLP(X)P(Y)
其中P(X)P(Y)是两个不同的概率分布,后者是参考分布,然后是
DKLP(Y)P(X)DKLP(X)P(Y).
换句话说,反向KL-散度不等于正向KLD。如果前向 KLD对称的,那么上述将是一个等式,而不是一个不等式。

有对称的度量吗?

例如,分布对称度量将是互信息

I(X;Y)=H(X)+H(Y)H(X,Y)=DKLP(X,Y)||P(X)P(Y),
其中是变量概率分布的熵,因为互信息是 KLD 的一个特例,其中联合分布是根据边际分布的乘积来衡量的。H(X)XI(Y;X)=I(X;Y)

一个数量应该遵循哪些规则才能成为价差的统计指标?

距离度量应该满足的三个公理是:

  1. 听不清的身份
  2. 对称
  3. 次可加性或三角不等式

由于互信息不服从不等式三角形,因此它不符合作为距离度量的完整标准。相反,信息的变化 确实满足上述所有要求,并且一个真正的度量标准:

VI(X;Y)=H(X,Y)I(X;Y)
其中是联合熵。H(X,Y)