- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21642 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6868
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习笔记十:各种熵总结(一)# t9 D; N. J" e, q
一.什么是熵/ \& U" \! I3 Z, [$ [$ C: u6 {
Ⅰ.信息量% b8 ~% n. E: J" r7 d9 ~- Q* X
首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢? , M5 u7 U( x6 I, L( {: K0 C
我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).
) }6 P" h& Q- v, R8 Z$ F3 H$ M因此,我们想要寻找一个函数h(x)来表示信息的多少且是关于概率分布的单调函数.我们定义:
o& k0 a! K4 ^+ e7 S! V![]()
6 K! f5 a# c6 F/ Y" ]- Y
: y% L; ]$ p2 j4 |. {我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0.(低概率事件带来高的信息量).
2 G6 v1 E/ l( F4 m# S/ g: B函数如下图所示
! N) j* N* m/ f. S0 k" U # A% v4 @# {5 \
有时候有人也叫做自信息(self-information),一个意思啦。可以推广一下下。
/ }# ?( s' `) N* M, S联合自信息量: ; {8 ~, X; T5 `
条件自信息量: 5 o9 M$ z4 h$ i7 B* v
通俗一点来说的话,就是概率论中很简单的推广就行了。有概率基础的话,这个很容易理解。这里因为实际上面使用二维的更多一点就以二维为例子,推广到多维的话也是可以的。% R# Y# D) V6 h* ]4 L# c, A
! j+ ]/ g6 s$ S
Ⅱ.熵
+ z% _( O0 P2 v. Y1 E# P& |: x9 I熵(entropy):上面的Ⅰ(x)是指在某个概率分布之下,某个概率值对应的信息量的公式.那么我们要知道这整个概率分布对应的信息量的平均值.这个平均值就叫做随机变量x的熵
- X1 x; ?+ V' ?" l! x如下面公式:
0 H" m9 x3 I0 f2 g& P+ T8 f1 V![]()
7 q6 Y! |, ?4 }! `& ^8 U. W这个公式的意思就是,随机变量x是服从p这个分布的,也就是在在p分布下面的平均自信息。也就得到了信息熵。信息熵的本质可以看做是某个分布的自信息的期望。
2 p: A' ]; }7 c* B$ |* f9 e/ s这里举个例子感受一下:设X服从0-1分布,即 # x4 {0 v! t5 \9 F2 E: U; H- M
则熵为: - h, W' T3 T$ z7 F! R _; B
上面的计算是对于一个离散型的随机变量(分布)来做的,无非就是把所有的概率都得到,分别求出自信息然后相加就行了。很简单,别想得太多。
1 t0 U* \; m' E9 i) K. I代码: ; W0 v) n/ f s, w0 V5 U" S
结果为:
# z h" V4 U4 h9 \ 7 J4 I. j$ i3 Q) @7 p1 b3 R# i
从图中可以知道: 1.当p=0或者p=1的时候,随机变量可以认为是没有不确定性. 1 q3 @$ v1 E8 R7 [ k+ y' y
2.当p=0.5的时候,H(p)=1,随机变量的不确定性最大.
8 X2 N6 _( _/ z( ?那么“仿照”之前的信息量的公式,可以推广一下下啦。
1 U+ s7 ^. H5 p) J6 W假设一个概率分布有两个随机变量决定。其中x有n种取值,y有m种取值。那么可以得到一个nxm的联合概率分布的表。那么有:
) p( q8 \9 k6 |8 U: ^5 a复合熵(联合熵):![]()
/ W4 }# X0 {/ N同样,复合熵的公式还可以推广到连续变量和多个变量的情况。这里就不写了。 条件熵:![]() & [% `6 a$ A: m* l
: l' [- ? b' w: \2 o: C: o1 t上面这个公式可能有点难以理解,不知道这个公式是怎么来的。举一个例子来说明一下: % @ |8 ^( @) F; W; Z' a1 @% }8 l) ~
如果以x表示学生体重,以y表示身高,以 p(x∣y)表示身高为某个特定的y时的体重为x的概率,把熵公式用到这个特殊情况得到是熵显然应当是 . }. `, J" q" g1 D
上面得到的计算公式是针对y为一个特殊值y时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均,那么就可以得到上面的条件熵的公式。
; h' F+ [+ a& t9 Y
0 }" `+ s. N* G' r- k* G: R& U$ wⅢ.变形总结
* ~5 x; f2 O; v1 R& l进过上面的之后,应该对于信息量和信息熵的几个公式有了了解。然后那几个公式还可以变形为一些常用的公式。这里总结一下
% l% U6 V* O5 E% Z1 N/ J首先要先介绍一下条件分布的乘法定理:
+ M( F7 x1 F q' y! [- I![]()
; H8 ?) q4 F7 Z5 |2 j( E$ C i! v/ C+ N# S; L4 M2 K
然后把之前条件熵式子使用上面这个公式改写一下,可以写为:
, i6 b p& S: x) P8 ~* \ ! T) t. c% q7 ]$ U
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到的时候,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)
! q7 @( @6 Q- F' ?- i3 T
" A- V5 F! ~; {& G9 \7 r8 B) l% R上面的式子表明,只要你能够得到联合分布和y的分布就能够求出条件熵了。事实上,还能够更加简化成为常见的形式: ! H3 P `% O- E6 [' h
这里利用上面的公式(以离散型为例子)直接推导,有
. @: N6 Y% i6 Q2 ?+ M4 E ( Y m9 |$ E" [1 R9 P& a4 {# K
$ P) v Q7 }; M6 u2 i
证明: " j8 p1 p$ L* V& V) W
这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
( F6 u& G7 d4 }6 G! V2 N4 ?& ?) O2 v. A/ o6 _: m% S& T, c$ a
|
zan
|