|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 8 C" K2 T8 }+ f# f1 |
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
# _ w1 b1 V, V4 |8 L, b. V在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
; [+ Q# F1 P; x9 n N1 `/ B5 I但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
! d) s" `: x5 p" |/ T: F4 H' f ! j3 u9 r7 G6 Z8 y1 ?5 K+ @
三.互信息
9 ^) W! i* @! N6 G2 u& t互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。 ( @. F3 [8 y8 U: T$ P
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
4 w f/ Z/ S* f: u6 e![]()
- `; y- U# v9 v* T% s* |
; k, H0 A7 Z% d( v4 [6 A那么互信息有什么更加深层次的含义呢?首先计算一个式子先: & |5 U5 [ l& i7 Y/ o' G
" y7 N1 v7 p$ O# C3 I
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结 + F; `0 P0 Z X5 ?3 M5 A4 }
/ }' J; u& B! L! O; L7 ?1 ~- T; X( ?0 u' e8 |
( c; f5 ~# \* [ |