- 在线时间
- 118 小时
- 最后登录
- 2016-8-25
- 注册时间
- 2013-3-30
- 听众数
- 10
- 收听数
- 3
- 能力
- 10 分
- 体力
- 1005 点
- 威望
- 1 点
- 阅读权限
- 60
- 积分
- 648
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 291
- 主题
- 7
- 精华
- 1
- 分享
- 0
- 好友
- 15
TA的每日心情 | 怒 2016-4-14 15:44 |
---|
签到天数: 130 天 [LV.7]常住居民III
 群组: 2013认证赛B题讨论群组 群组: MCM优秀论文解析专题 群组: 2014年地区赛数学建模 群组: 国赛讨论 |
首先先引入一段小新闻,从中涉及到的一些知识点楼主会标出:
& Q, Y/ u& K1 G. e9 m7 ?
4 \5 o0 t8 w$ s8 R2 O7 f 仅有“人均”是不够的
4 {7 s( C) }) S 日前,发改委发展规划司司长徐林表示,我国人均GDP已达到6700多美元,属于中高收入国家的行列。目标是希望通过“十三五”的努力,用世界银行的标准接近高收入国家的行列。# _4 n; h/ u# o6 a/ N6 d( l, p& B
统计数字常遭遇吐槽
+ U0 `6 c) G: B9 z" Q9 f+ m 赵丽:“我国人均GDP已达到6700多美元,属于中高收入国家的行列”的言论一出现,就遭到了许多人的“吐槽”,有不少网友表示“被中高收入”,拖了国家后腿。# e g5 {8 x2 F5 b) U2 _- D' V
许建立:其实,普通人对统计数据的“不适”已经不是第一次,这些年来“被平均”、“被幸福”等情况屡屡出现。如2012年,某大学发布的《中国民生发展报告2012》中提及,全国家庭的平均住房面积为116.4平方米。许多人看到后的第一反应即是不相信。) O# v/ @. E* ?7 Y a
肖龙凤:这种感觉其实很好理解。对普通人而言,更多的是根据自身生活状况去印证、判断统计数据是否真实。如果他发现自己以及周围人的情况和数据有不小的出入,很自然就会产生疑问。①+ @0 N q6 U, _* I2 K7 Q7 g) _
人均数难以反映差异
& ^. _! R3 w5 q/ S) `* s 赵丽:不过,统计数据和居民感受不一致,并不代表数据就不准确,这里面可能有一些别的因素。比如说,人均GDP和老百姓的人均实际收入是两个概念,如果混为一谈就可能造成误解。
2 p) z( q) b2 p 肖龙凤:而且,现在公布的统计数据常常是“平均数”,它是经过“削峰填谷”、加权计算后得出的,是一个总体性指标。平均数有其局限性,很容易掩盖个体之间的差异。
" w- |. I; w3 M2 K6 G, q 许建立:是啊,低收入行业、低收入人群很容易产生这样一种感觉:自己这一群体的实际情况没有得到足够的关注,反而被热热闹闹的“平均数”给掩盖了。就像那个段子说的,“张家有财一千万,九个邻居穷光蛋,平均起来算一算,个个都是张百万。”②
8 I3 b- H: B1 p+ J, M, Z! s 细化统计更有说服力
6 S9 G4 `8 G+ ^/ M+ ]0 J0 L 赵丽:人们也有这样的担心:光看平均数,我国有些指标已经很不错了,如果政府部门因此盲目乐观、沾沾自喜,因此忽视有些群众生活还很艰难的现实,那就麻烦了。 }# I" d% ]% @8 @5 y; T& g- {! w
许建立:由此看,既然平均数有局限,那就应该向社会提供更多的数据,将更真实的情况反映出来。有媒体报道说,国家统计局已经在推动互联网大数据在政府统计中的应用。我觉得这是个好趋势,将大数据利用好了,分类化、精细化就更容易实现。& X9 \9 k. a9 |
肖龙凤:我注意到,统计部门在几年前就提出,在收入统计时进行五等分,根据城镇居民和农村居民中最低收入、中等偏下收入、中等收入、中等偏上收入、高收入等五档来公布相关数据。现在统计局网站上也有这样的分类了。建议这项工作的面更广些,再就是相关部门在发布数据以及媒体在报道时,也不要图简单省事,可以对那些反映普通人状况的数据进行更多的告知。③# R/ o# h) ]) ]- f9 I
" j7 x% o9 ~; V% T! O( W来自:http://dy.163.com/article/T1378363937706/9QMPV1DQ00964KE2.html
* ~0 |9 B- N8 a' W$ T( L, s( X9 M' w& ^* D! J0 ~
--------------------------------------------------------------------------------% ?' S4 P7 Z5 @) P: M, {
0 b$ m) I4 U3 f( ]0 R; X2 T好,咱新闻看完了,来看看这篇文章到底能告诉我们一些什么:0 s; C& J5 ]) m" N5 t" p
: V9 g1 g/ ~& `3 B Y+ {
第一,我们先了解一下什么是平均数。在统计科学上把平均数分为两大类,即数值平均数和位置平均数,前者包括算术平均数,加权平均数和几何平均数,后者包括中位数和众数。通常情况下,我们所说的平均数是简单算术平均数,它是用来描述一个总体的大致水平的,如果数据分布的比较好(比如正好是钟形正态分布,那么这个平均数应该就在中间的位置上,理论上和中位数一致,偏态的则两者有所偏差)4 k; m6 i- S1 h) C
1 r- q( w' i* ?0 A! W
第二,数值平均数家族成员区别:简单平均数——这个最常用的,公式可以百度,不细说(其实简单平均数是权数为1的特殊加权平均数)( u3 T% v* {8 x3 t, N' Q$ @
加权平均数——给予权重,为了平衡数据出现侧重不同的情况。
% }( D4 ^% b8 B* M/ ~: j 几何平均数——这个与前两者稍稍不同,他一般用于一些比率,增长率之类的。2 j. [' Z1 d# q8 S3 i) T
e.g:某种蔬菜的价格, 甲市场2元/kg, 乙市场3元/kg, 现从甲乙两市场各购买1kg, 求平均价格。7 i5 V% V% p" [- h8 N
此情况应用算术平均数:(2+3)/(1+1)=2.5(元/kg)
4 x* a% y) ^4 N& F& Z q' l9 J- G其他条件不变, 若从甲市场购买2kg,从乙市场购买1kg,求平均价格。7 F u1 }2 i2 h' m
加权算术平均数=(2*2+1*3)/(2+1)=2.3(元/kg)
' D% _& }2 w8 s% u! g2 W: z* X& l+ u( ]8 ^7 m$ S1 B
第三,中位数和众数6 s" g! R) s6 e; }0 A" i6 q* n( w2 i9 I
这两个和算术平均数区别就比较大了(当然标准正态分布除外)* C* x9 j& g' N/ K" n
中位数也就是说一个数据集中,数据从小到大排列,在中间位子的那个数(奇数偶数的问题不作深究,课本都有公式),众数;顾名思义,在数据集里出现次数最多的数字。
& g" f6 m# B$ g, P2 |- Q: B# C
7 J) A# r: u! Q, S6 F3 A, U有同学要问了,既然他们都是反映总体水平的指标,我们该怎么选择呢?好问题,这就要说到他们几个的优劣性了。
/ I- `: a1 z+ Q# q l. c" x4 e# [
& x3 Q+ M0 T6 N4 j- Z0 Y 算术平均数,计算简单,但容易受到极端值影响,若数据的差异(方差)比较大,往往它的代表性就不好了。——这也是为什么我们对平均工资那么深恶痛绝了!
( N: {$ e4 }, O7 p4 s: q 中位数,在分布比较好的情况下,他还是很有代表性的。因为他是在中间位置上的数,一半比他大,一半比他小。在方差较大的情况下,他可能比算术平均数更能反映情况,但往往这个数只看到了中间,头尾都忽视了。
3 X* h0 u Z5 ~8 X 众数,当然就是权重最大的那个,既然出现概率最高,那么他也是有代表性的。(只是若有N个数都出现了同样的次数,且彼此都不接近,就比较头痛了)4 O+ f; V- X9 U' T+ x
: e! ~6 ^; `. g9 o3 W/ g
说完这些,我们回到那则新闻:
* Z1 [: }, m) g* O7 x% p1 p1 I5 \①当中的问题,是我们经常听到的。楼主可以拍胸脯说,人家的数据是正确的(谁都不会傻到用假数据吧),但这个样本未必就是最具代表性的(也就是说他可能会是个有偏样本)。' }: M* L- \6 }$ `* f
y+ z4 |# h1 j8 D& w# j, C7 N②这就是我们遇到的第二个问题,受到极端值的影响。也许获得的样本不偏,但中国地大人多的,在一线城市的人民和在五线城市的人民感受肯定不同的,因为这里的平均数往往会是算术平均数,可能并未考虑到地域区别以及贫富差距和贫富比重的问题。或许,这里加权一下更有说服力。2 @ O; |8 f4 C4 d5 k7 v
5 ^2 @! K' e! @5 n
③这里提到的这个方案,有点类似中位数了,当然,分层之后的数据也许会更接地气!
+ K- D7 f( X1 n6 C9 x* @
" C [* t: L$ m0 v( {5 N9 { E楼主在这泛泛而谈,所谈之观点皆为本人个人的拙见,如果错了,希望大家及时指出,斧正楼主的思路!9 b) e2 Y) n* T& y4 z
|
zan
|