|
机器学习笔记十:各种熵总结(二)二.相对熵 相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(即KL散度)等。 y5 x' U Y4 \+ S4 u7 M% `( \/ u E
设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为: 6 R! a8 { o! @7 r
在一定程度上面,相对熵可以度量两个随机变量的距离。也常常用相对熵来度量两个随机变量的距离。当两个随机分布相同的时候,他们的相对熵为0,当两个随机分布的差别增大的时候,他们之间的相对熵也会增大。
: D! x' I# q g. w$ O2 Y但是事实上面,他并不是一个真正的距离。因为相对熵是不具有对称性的,即一般来说 相对熵还有一个性质,就是不为负。, C- G% A3 _5 I7 D& e% m4 G
" C8 k3 U' M( i6 `* o! J
三.互信息
- _ q; Q* O% h互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。
1 j- _ a6 B7 n- j两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。 1 o- A; z3 y3 o: B( `( E( Q, I
![]()
4 m! [- s o( ~3 B4 r; F# i7 g. @
那么互信息有什么更加深层次的含义呢?首先计算一个式子先: ( s0 \- ^1 z9 i% t5 r# F: l
) F) o% o# M6 j7 t
从这个公式可以知道,X的熵减去X和Y的互信息之后,可以得到在Y给定的情况下X的熵。 四.总结![]()
* P; s. C, n+ e9 L! o, s ], Z* r
$ x% \$ Z$ q/ v: a0 Y! V. ^7 f
9 W$ d0 Z, m" t1 {0 N& y |