- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21485 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6821
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)+ B4 z, \! z/ X
一.什么是熵
1 T3 P1 \& ^2 d8 q$ MⅠ.信息量7 {- R$ k8 A! w& G% C0 E3 S
首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
$ ~6 ^0 T% L- a4 R& @2 s$ E我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x). . b* Q, y8 b0 p' z
因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:
1 C% q( u$ K* q% N![]()
$ O1 p2 E; v, W0 t' S! M/ @8 b9 \7 }- i! C) D
我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
5 m) J: `, e* o( U$ e函数如下图所示 9 M2 b: N$ }' X- @& F; U! [
![]()
' G! d8 \. `6 T有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
8 N6 C' x6 V% D/ |+ H8 U联合自信息量: - w# V D! {' w* Q2 U* f% B- @! o+ c
条件自信息量:![]()
( b" i7 ~1 n8 |% A: b( M& }# K& Z) c/ A) k通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。, [ l8 t: d- ~2 [
4 Y$ J3 Z3 Y5 l7 y: T1 c( c( Z- O. FⅡ.熵( k9 Q( Y$ c/ e: S' l" h" k
熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵
1 M& `6 U7 V" H2 o; @( H2 j& `6 H如下面公式:
* ]; q+ v2 }! L![]()
! {2 f, ^9 z) |, q8 V这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。; W+ k+ c) o' Q7 c
这里举个例子感受一下:设X服从0-1分布,即 ![]()
2 H! p2 ?. ~ j# X, [% L/ S: v5 m0 G4 N/ C则熵为: . |' I$ E4 {6 |
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。 - X8 H6 k, A( v5 Z: Z7 E
代码: 1 h/ c5 z0 @' G; N
结果为:
' O) E) J# _: x6 U8 {* S " U6 T+ Q0 C; }0 Q: I
从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
& T& ~0 M- S5 |3 F; h2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
/ v9 d* d; B' Q/ I( l3 o0 {1 ^那么“仿照”之前的信息量的公式,可以推广一下下啦。
/ H& M: P; M, N; b+ @, |) ]) H) G假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有: - K6 o% R3 h3 D+ I7 [% i2 `% F2 W
复合熵(联合熵):![]()
: _9 Q& G- S/ H9 r2 k& R0 F7 R1 L: ~9 F同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]() # k/ D l$ y% l1 X
: P) b/ ?& Q4 O0 m
上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: ! _" u: H$ {) L; a
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 ![]()
7 O) L; L. [4 |$ T0 Z上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。% A) Q7 j9 F0 z4 @+ d8 d
! h" g$ T) `* R1 d# J3 D" w) p2 M
Ⅲ.变形总结
) b, p: u3 I# Q( U& k. ]进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下 ) M& k# P' h4 r& } g
首先要先介绍一下条件分布的乘法定理:: F2 h9 v' [/ |8 z7 u
![]()
1 g% M; c7 j/ W* T4 J6 t7 U- n0 S1 `' @
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:
# [: V! V8 c$ `* d D& E$ q & \! c( ~8 |. e" u( z; q0 m
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
: ^: `2 x D6 D- O h# `
5 C3 ?; k' r% A; U上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
" Q- }5 ^( h; Z, }( G这里利用上面的公式(以离散型为例子)直接推导,有 : O) u& @+ U, E
![]()
. X. W( m# T5 U- A5 C
" [3 ^5 _6 G/ p% d* X' x证明: 6 u; _' e. `* x' p; x0 u
这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
& n9 ^$ G6 \4 Z0 |$ L/ n' k
! c/ K7 R# m* h |
zan
|