- 在线时间
- 538 小时
- 最后登录
- 2023-6-27
- 注册时间
- 2015-11-2
- 听众数
- 29
- 收听数
- 1
- 能力
- 0 分
- 体力
- 21621 点
- 威望
- 0 点
- 阅读权限
- 60
- 积分
- 6862
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 749
- 主题
- 600
- 精华
- 0
- 分享
- 0
- 好友
- 10
TA的每日心情 | 奋斗 2023-5-24 09:14 |
|---|
签到天数: 119 天 [LV.6]常住居民II
 群组: 2018高中组美赛 课堂 群组: 2018国赛冲刺 群组: 2018 夏令营面授课堂 群组: 2016美赛交流群组 |
机器学习算法——信息熵信息熵(Entropy)! n' k; P" D) D8 Y. H2 B
信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本书中到底有多少信息量。直到 1948 年,香农(C. E. Shannon)提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。熵的概念发展成为信息论、数据压缩等学科的基础,在很多科学研究的领域尤其是计算机科学中有着广泛的应用。$ T. Z& h9 J4 P8 P+ X# D
实际上,一条信息的信息量大小和它的不确定性或存在概率有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。因此可以认为信息熵是系统有序化程度的一个度量。 Shannon 借鉴了热力学的概念,把信息与其存在概率关联起来并称之为“信息熵”,并给出了计算信息熵的数学表达式: H = - ∑ Pi * log2 Pi) b$ [' M- V& O, y- h& e# b
2 W d+ {' t' m* ]/ [
假设有一个字符串要求它的信息熵,其中Pi是字符i出现的概率(该字符出现次数/所有字符数),然后将所有的Pi乘上取对数后的值log2 Pi后累加,最后取负,得到字符串的信息熵。
. R7 `' Y, l) F9 t! @本题要求计算给定字符串按照每个字符统计的信息熵。 ' e: m9 k# d; T/ k3 C, x- z
输入:一个字符串,请忽略所有非字母的字符(即只关注a-z, A-Z),且不区分字母的大小写。1 w0 h+ q! D. }4 }0 @+ A0 u* F
提示:可以用StdIn.readAll()读入字符串的所有内容% H5 ]% C, h1 ~ i% G
输出:对应字符串的熵值,输出请用格式化输出("%4.2f\n")
: o# D: ~6 O3 @# q5 d5 F% n/ m样例输入:To be or not To be,↵
) M3 D J5 s# _that is the question↵! J( x1 R# c9 T! m0 F5 k
样例输出:
( ? S+ H- |% C- n4 o8 I
% p3 g1 J. s$ ?9 }4 ?( U* c
: J. [: J6 A5 f( v( H7 N, c( ]- e" p( m6 Y8 D1 O( g: ~+ z
/ M7 M P% ^0 m8 M( |2 c5 Z
1 b; ^# H. v! R, b. _3 p+ ~* @4 b# ]+ X! U
- q+ m3 N" w' T" K8 n2 J+ W- F3 H, [* p N" i2 |3 t" A
L+ l5 n1 y1 T, ~5 ] u$ J |
zan
|