|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
+ }0 H. O7 F3 \8 g4 [4 M9 P3 }设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: + ?+ y x7 x% d) {+ L7 z/ w) {
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 w0 ]7 P8 h# `) X5 C, t: d
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。+ [: C# A. t# [4 `
![]()
- a( E3 |$ N4 `& n三.互信息- l/ s# X# A. g* s4 e" d* z( D
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
8 y3 C: g+ H7 r: t两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 8 J9 A& i8 E, E, \) ?" ~; z3 f& O/ ]
1 f. G% ] h) @6 x1 P1 @8 `
9 H: N" H8 t/ q, i0 O: J
那么互信息有什么更加深层次的含义呢?首先计算一个式子先:
2 c6 {$ l% S0 T! Y , o3 j9 h5 G" X# K6 K0 x
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
$ X3 N# Z* h! ^: o( @7 z
+ g5 y5 E" t; |9 L. j v
" K' A/ t8 o o" A, Y2 p! N* ] t/ q9 r( m8 P0 b
|