|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
5 {- q$ \( G9 G) @+ U( j! O设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
4 Y8 Z8 C! a0 k7 Z# z; F9 W7 V在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
" K2 b; e. h* D( V3 G但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
6 d1 J5 _, K; L4 z! x( ^! ~![]()
4 e4 y) e# |$ t* k( s' R- v. I" m+ ?三.互信息 n7 y/ y0 h" o1 r$ u5 A4 W; N
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
6 L9 [& C3 x# `3 L3 P9 c% U两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 2 r! |: o3 q9 \) u; d! S
9 r- w# a; k- a5 l
4 L k& ]0 B8 p/ t; t$ U3 \6 }那么互信息有什么更加深层次的含义呢?首先计算一个式子先: 1 y0 z$ O4 O" W: ^, ^4 f* Y
![]()
9 f3 Z# O/ m) O从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
" t- R0 }& w7 G* F5 ]* i( @
6 ?) H: U g* h. U( v& D
n3 ?$ |) c0 Z l9 M& f0 h8 U% K
' \! |1 T* K* c: ^: t |