- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21486 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6821
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)
# G2 ~4 V( {. X; q* J9 n一.什么是熵
$ w8 ]& s; F" B1 V$ u$ X& d( `Ⅰ.信息量
+ Q$ p- }0 y/ F( }首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢? % x3 K; Q5 p& q- S5 H, v4 p4 M- D
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x). 7 S( N ?# e* x1 T6 ]+ S7 _
因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义: * L: ? W9 C$ N9 i( Y- {" P7 C
1 K; b# D! {6 [) ]1 a, i
5 @3 [5 A9 E9 y6 W* ?0 D2 f" n我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
- X) \8 Z8 r% N" F% w函数如下图所示 ( i% B; |4 [3 c
![]()
. E, v2 B6 j' ]1 y& L有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
2 o% {$ d8 @/ X0 G1 M7 m联合自信息量: ![]()
/ U% ?4 U4 }& y8 B& V条件自信息量:![]()
, y9 M0 K; Y" d: c" M& z# L' C通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。& ~: r" }, g) f: v7 U
4 a; l: A3 F% {1 ^Ⅱ.熵7 b4 L% ~. w% W1 G1 ~" h# z
熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵
/ a# G6 K* x b% m; {( p9 u5 D如下面公式: ; n! j% r% Z: Y7 V7 H
![]()
B7 @7 X3 Y3 N" _! ]% \) X2 i- h+ ~这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。
" E$ |- H- j2 O9 R" J9 M; L这里举个例子感受一下:设X服从0-1分布,即 ![]()
5 k- H& u4 p8 L) q$ F/ e! q b则熵为: / I. g% a% }& H( `
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。
# {2 E+ F, F' w( J代码: * W* S( G' y5 g& k! t! w1 ~( M. }
结果为:
( G! r+ y9 S/ F+ t; _ ) v: ]1 X: ~' _5 g$ M
从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
5 }" U! t2 D" k2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
0 s) r8 e6 P) U6 T, E \+ C那么“仿照”之前的信息量的公式,可以推广一下下啦。
0 {7 a4 x0 z8 |: R: e假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: ! h/ ~ C/ |3 g6 H4 s
复合熵(联合熵):![]()
* r" x8 m$ s& U; c7 e同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]() % }4 c% G$ @9 U. ?& |5 H
/ a( U, c6 P, Q" v R( f& _3 ~
上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下:
8 n6 _: Y6 O$ ]6 p$ S- n+ c6 l0 S如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 ![]()
% e" s2 B3 L7 e L0 [( M1 M4 {7 I. i上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。8 T# n3 n4 a" i6 \4 u" E8 t0 Y
/ C5 z+ O5 T2 ^3 j$ d% D
Ⅲ.变形总结/ K$ c; y: \: \2 W5 T0 d# A
进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
$ G2 s. U- Z5 n; F2 I! y7 V首先要先介绍一下条件分布的乘法定理:
1 ]6 x7 R" f4 Y% W( Z+ _' O![]()
" m* `' L3 Q8 H% H. p$ f8 Y8 b, R& W/ ?* c% e5 {
然后把之前条件熵式子使用上面这个公式改写一下,可以写为: J# p6 a8 h& C `3 a; ^9 J
![]()
4 d+ [& x% ?, [* K" P0 P当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
$ C6 p& e. {+ B$ ]: |3 x. R/ M( @+ C+ j- {
上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
% U& r& {0 ]8 C7 W! O这里利用上面的公式(以离散型为例子)直接推导,有
; Y0 V3 @$ V8 q$ F, |1 @0 t+ P![]()
* n& H e9 j* O, G1 I! e, g( G
证明: ![]()
. h* t3 {6 i4 J4 [3 ?: ~! D这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。 z% z5 q9 c Z6 B' J
! h7 @+ ~( z; T h& V |
zan
|