|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。
) o, w- _. ~( ^" \3 O5 H7 y设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: ![]()
( _2 @7 S) U$ t* n* [在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。 z/ @9 P! h. ]& N: L$ ~
但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。
4 E2 h# B; M3 u8 R 7 F) \( a# C$ R: p. e+ x+ n
三.互信息 W# t v& D8 ~* n* ~" X
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
; W& Q- j% c: x两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
: \ a( G: c! c! k& @6 l# ]![]()
5 v/ ~% z: s/ z: M1 V% j" \, W6 q' K* x% U: e3 d
那么互信息有什么更加深层次的含义呢?首先计算一个式子先: 3 N/ e, V# O W$ k8 W* M
9 x5 d, }' @0 V
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
* ~- Q# f! f6 v- g O; W1 a2 ]6 _1 \% F+ o0 _" ^& B6 r
' a' e, h; F, Q
7 I' z6 B) H% P1 E9 X |