|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 . p- r; g8 g: a6 K
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
. _2 C- H/ r1 a6 {/ y在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
( x$ a9 M/ w" ?' d6 Q3 Y但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
) y0 v% Z$ _ m( @7 _![]()
- M3 c& X3 s8 `三.互信息9 k; |' c. a+ d8 Q
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 f) j$ c& e5 ?6 t% f
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 1 v) h2 L: e6 d. `
![]()
. s$ K: M7 n5 E+ H. T' V: [$ M" h. o! t& T/ p
那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
! ?, P; r7 l3 _4 ]![]()
! C/ F) c# V C7 d: c. c3 x从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 & D, \, l! G# }: K! v. X" Q2 r+ P
# x: ]4 b0 U; G7 v
) K2 v# C7 n5 D- A: Q: N/ z# {: {% i% h0 c9 }- k
|