机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
. `3 l( [! k; O) H5 ?6 M设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
) ]4 {( m( B1 w. I i' K' M在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
" w2 @" _: i8 R. ~1 x3 I5 j% b1 h但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。( z* ?: L. X# Z0 C. `
![]()
+ E9 K7 O5 z8 X) t8 C) C1 P三.互信息
- v) Z* d' n" p9 H互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
3 U2 R9 a' p2 ]两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
' u( l: a4 M. \3 L . I$ x0 w @) ~$ E5 k
8 s: @( |( r1 t
那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
0 B! R6 D" _3 i( {![]()
2 j8 `- m' V3 O) _7 H+ q从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 ; b2 Z: _! D6 o
- m& g( D. l7 j' x2 O* H7 M2 F0 X8 J% m$ i) V0 g R3 }0 z
' z i e' Q2 o/ o6 @, _$ P
|