- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21621 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6862
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)
0 k2 C5 x* `9 P- {9 m K- B" R一.什么是熵
. d8 X1 z+ R3 ^' a- C; ^Ⅰ.信息量
" S- Z `) u" }$ U3 Y/ f首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?
, S1 e9 f( e/ ~" }8 Y; o我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
' m ~) x' \- E3 r, i8 Y8 }因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:
* \1 Z' v+ R4 J: q![]()
* D, T6 b! d9 w2 h
/ N9 \8 Z: ?$ E* B0 s我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
( `0 ?4 Q, ]6 ?函数如下图所示
( F3 Q( b( A1 S. M* l. g 6 E9 a8 U% _0 L9 ]3 N s
有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
7 H+ z ?8 a3 q联合自信息量: ![]()
s+ c- y9 |2 _1 G- E$ O- F3 E1 J条件自信息量: 7 p# ^: d) D+ Z' _# w7 I2 w
通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。
" I/ M. e' O7 ^4 N, W
S9 [) O* |4 e. ~* H! @Ⅱ.熵
9 @- D5 |! G6 m+ v2 E( ?# _熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵 / v$ H- D/ J9 c& T. L- l* R
如下面公式:
9 x6 q( t( Q: t / K5 p3 F. X. `" ^5 y
这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。
! u6 c! \1 d1 V" e! Y, `这里举个例子感受一下:设X服从0-1分布,即 0 L) m- r/ M. ^8 `, B% M! e5 P
则熵为: 6 |7 m# `. ?8 }- B- U$ U6 d
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。
' Y+ w3 l/ e# L! p; h! {2 v代码: % ]: S, J% w4 w" }0 n* f
结果为:
- Q2 g% A i/ Q! y8 {( f& s( j![]()
' g+ P. m7 f$ R) O. }从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性.
# W* {( t- _1 W4 _% Z; z" Z; I; r: G2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
6 |, C$ f: J! H0 G! S% ^那么“仿照”之前的信息量的公式,可以推广一下下啦。
+ E# c% t5 l; V7 b0 Z4 |& K假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有:
% w' _* N9 F: \. u复合熵(联合熵):![]()
1 ~8 c6 G9 L/ Q% p% o同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]()
3 A k8 P" S9 T/ n
% l O7 k u4 K5 \上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: , {" L# A7 P. c4 f2 j: }
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 5 O3 C0 h4 W7 N6 o" `; g
上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。
; K- _. _- z4 B+ F3 L, u! [! _; z, O( w, V# i! F8 k
Ⅲ.变形总结5 s3 _" S$ L3 Z! d
进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
3 H9 @) r b1 u2 F7 Z首先要先介绍一下条件分布的乘法定理:, G3 ^% O" L d, M2 O8 \
- T* R# X3 I t+ M
* M6 t7 |# [3 C7 b; l1 R; E
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:$ f0 f, y9 S+ g% @" r4 e4 |; q! D
' L" }; }+ K! n7 X' I& v* s1 W
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
; P) c) O' |" F" x$ x) z: X# j2 t! X4 Z! B, x! ~5 W( V6 f* z
上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式:
5 K+ O! m4 V% Z这里利用上面的公式(以离散型为例子)直接推导,有
+ Z6 |6 ~8 K9 x& T% Q% A" G( D 3 U0 B+ ]- t4 q. B: \3 P
x& ~+ S% E4 @) m8 H证明: ![]()
5 v0 J+ c: n' N* t0 Z! K" d, N这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。) A+ M5 Y' `" ^9 A! M8 J5 @! c
: u+ Z5 |6 v. l0 \8 W |
zan
|