- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21621 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6862
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)# ?% W% q3 V0 @( B
一.什么是熵
$ l- O& K! ?. S2 JⅠ.信息量8 J6 `# W8 N V3 ^0 |2 m E
首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢? 7 R6 F: }2 L Q, R
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
& b4 a+ v7 T1 A/ \' b" N3 u, A因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:
6 p5 Z- s6 h( Q: P; E5 t1 ?# U) S 6 J1 c2 q- S0 \3 y r0 \
2 r$ G: S! }$ z' A$ r" G: T我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
. ^( N4 E: Q/ Z函数如下图所示
9 q% X/ a! B, b' Y# g 2 E* ]. f9 H5 \, N
有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。 - {9 }9 s1 l6 l# m
联合自信息量: ( l- W/ w/ c7 M+ j/ r' T
条件自信息量:![]()
1 x& {& _0 G. Y通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。2 L% a/ e* _& u, O
) a7 k% Z5 i* {) v1 v2 q) s$ RⅡ.熵: K3 _# ~# g' N3 s6 k0 a5 M- X
熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 ; G3 `1 l6 } ~3 s" U+ Q
如下面公式: 8 f( D" D+ y# U$ D9 V& P! E
![]()
( b5 [0 a: @3 I c这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。5 B8 V( n; ~% v3 [* ]0 h( h( M8 j
这里举个例子感受一下:设X服从0-1分布,即 8 t, K9 k7 @3 H. w- O. d& K
则熵为: - m+ t6 R) _5 ~1 u
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。 7 M u) C9 l; n5 m3 c/ E
代码: W; |: v* j0 M% t# E/ `$ J
结果为: l3 f$ h# g( i6 M9 B9 D* o- {# V
![]()
0 @" @# t K- b' M9 d5 ]从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性. * J9 [2 |$ z% V8 k- p! T9 O/ B
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.8 f1 b* Y0 m+ W1 {, i2 r$ _
那么“仿照”之前的信息量的公式,可以推广一下下啦。
" p( }+ G1 r# [4 Y假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: 1 w8 G- {: ]( C9 ~3 n
复合熵(联合熵):![]()
I! o; V3 n) S3 J W4 `2 s同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]()
2 L# r" s+ `+ K# P
; Q8 k& h- {4 l. t上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: & u. e6 X( W6 j0 v. |
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 ![]()
5 C" e9 \8 f# b上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。, P0 }' r `' S& _# g+ z' t. i: Y
5 Q8 Y3 S, R! W* r" c
Ⅲ.变形总结
* x2 F" i4 _$ T. K' q8 I进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下 8 E5 M5 @: _4 Z+ V) U" ?1 Z3 V; b
首先要先介绍一下条件分布的乘法定理:
1 l; v* k, L1 n0 X8 m![]()
" a6 _7 E( O. p$ m) M' j$ b7 e, M; j2 ~$ g6 ^2 R9 |
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:
( }- [! c- {, M B5 B8 I( V 1 a+ ?' U/ l' i' N$ y. ]
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)" K8 _' L0 ?9 M! R% y
1 {9 r0 e/ N! T3 m, I7 U上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
9 F, a$ F% i% w' v: N3 c. A+ [这里利用上面的公式(以离散型为例子)直接推导,有
9 |9 }" M7 z ~+ R% z$ K5 j![]()
$ E& H% b t" L) [0 Y1 I, l' E. w& ~* D6 _; L/ i4 c9 Y/ A
证明: , i) O$ X9 Z- z! n8 M! H
这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
# X! Z7 l9 r4 Y1 p: h
8 [( p% k3 D+ j) J" v- ~9 { |
zan
|