机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 ! u5 Z* b' M: r3 \" t
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
- N+ `, e( J4 B4 Z在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 7 y( m+ {; e/ c1 G9 E% u4 D
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。1 B, `. ?; q" R0 l7 F0 L8 z
![]()
# c% W, X" }' Z5 M& X7 g, q G4 o/ y三.互信息
8 X9 q! e: m$ C. d( @互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
+ M* l0 m$ Z. J% H0 h& Y两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
$ U+ q7 m& n2 k * z# j9 G6 T0 C+ z' p1 ~; Y
: ~, {# a% r! V
那么互信息有什么更加深层次的含义呢?首先计算一个式子先: / ?" V9 r0 f4 M/ t8 A2 r. u7 y
![]()
& l. r/ e& r2 G; S8 ^1 _4 y; ]从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
7 l/ ~) T- c) d3 _) ^# `( p) B8 \2 [- Y3 a" _$ ?, x9 x+ L
! }+ y$ w: x6 u( j1 p' N4 \/ j$ A( f: d' J
|