机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 " l( Q9 j8 w8 x/ @0 Q5 Z
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: 9 `) H# @& K- b2 ?+ y F- h1 }
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
+ z, ~0 s3 H5 B$ i2 B但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。3 a9 R+ T( W% R2 g9 Y
( ?6 X4 b2 [1 l! E" P: F1 T
三.互信息
, m7 @) i+ J& a3 C; y. ^! `互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 - Y( Z& I- l2 ]* N$ n3 n% |5 d3 R
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
3 D, j5 f: |& {! b: }+ E9 C5 m : ^. M$ Y% b- W# O# r7 q# H* ]: h$ k
% t) [3 t9 |6 D8 w& _那么互信息有什么更加深层次的含义呢?首先计算一个式子先: ) z8 T B7 E& v* |
![]()
1 c, \) R; E' s% O! c' n从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 . r. O$ _: } ]2 P# J
) z3 i0 Q9 K- f$ C4 ?0 h9 I9 A; S" v
3 x& m7 f4 d0 T# E/ ~; K' J1 u2 W* p) j' x4 W
|