QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2854|回复: 1
打印 上一主题 下一主题

【从零开始学统计】走出平均数理解上的误区

[复制链接]
字体大小: 正常 放大

7

主题

10

听众

648

积分

  • TA的每日心情

    2016-4-14 15:44
  • 签到天数: 130 天

    [LV.7]常住居民III

    群组2013认证赛B题讨论群组

    群组MCM优秀论文解析专题

    群组2014年地区赛数学建模

    群组国赛讨论

    跳转到指定楼层
    1#
    发表于 2014-5-7 22:47 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    首先先引入一段小新闻,从中涉及到的一些知识点楼主会标出:! c, Q1 Q/ X2 B" }
    4 U5 M# a6 Y% I7 |/ h1 j" `5 @3 i
      仅有“人均”是不够的
    * P$ w. c1 p2 p$ p% z7 o  日前,发改委发展规划司司长徐林表示,我国人均GDP已达到6700多美元,属于中高收入国家的行列。目标是希望通过“十三五”的努力,用世界银行的标准接近高收入国家的行列。9 }; X5 g( e) M% P; B6 U
      统计数字常遭遇吐槽
    , V; J1 y! r2 K! b& Q  赵丽:“我国人均GDP已达到6700多美元,属于中高收入国家的行列”的言论一出现,就遭到了许多人的“吐槽”,有不少网友表示“被中高收入”,拖了国家后腿。+ u2 x8 A; L# B
      许建立:其实,普通人对统计数据的“不适”已经不是第一次,这些年来“被平均”、“被幸福”等情况屡屡出现。如2012年,某大学发布的《中国民生发展报告2012》中提及,全国家庭的平均住房面积为116.4平方米。许多人看到后的第一反应即是不相信。
    / j# F6 {# M9 |0 ^  肖龙凤:这种感觉其实很好理解。对普通人而言,更多的是根据自身生活状况去印证、判断统计数据是否真实。如果他发现自己以及周围人的情况和数据有不小的出入,很自然就会产生疑问。①
    0 t2 e0 Q" p- W1 e8 x" ]  人均数难以反映差异( g; e: c( P4 c7 I7 k- k% z8 T" s
      赵丽:不过,统计数据和居民感受不一致,并不代表数据就不准确,这里面可能有一些别的因素。比如说,人均GDP和老百姓的人均实际收入是两个概念,如果混为一谈就可能造成误解。
    2 p' D7 K) x" R( B& W1 G1 i  肖龙凤:而且,现在公布的统计数据常常是“平均数”,它是经过“削峰填谷”、加权计算后得出的,是一个总体性指标。平均数有其局限性,很容易掩盖个体之间的差异。
    * s# [, l' S9 P. t) Z$ O1 C9 `' K  许建立:是啊,低收入行业、低收入人群很容易产生这样一种感觉:自己这一群体的实际情况没有得到足够的关注,反而被热热闹闹的“平均数”给掩盖了。就像那个段子说的,“张家有财一千万,九个邻居穷光蛋,平均起来算一算,个个都是张百万。”②
    * ~, t" c4 m' Q+ f  细化统计更有说服力
    3 T* V3 n5 }( l  赵丽:人们也有这样的担心:光看平均数,我国有些指标已经很不错了,如果政府部门因此盲目乐观、沾沾自喜,因此忽视有些群众生活还很艰难的现实,那就麻烦了。; U! |. i7 r$ X& i+ k, t
      许建立:由此看,既然平均数有局限,那就应该向社会提供更多的数据,将更真实的情况反映出来。有媒体报道说,国家统计局已经在推动互联网大数据在政府统计中的应用。我觉得这是个好趋势,将大数据利用好了,分类化、精细化就更容易实现。
    # ]6 l2 F9 a! ?1 w7 C) v  肖龙凤:我注意到,统计部门在几年前就提出,在收入统计时进行五等分,根据城镇居民和农村居民中最低收入、中等偏下收入、中等收入、中等偏上收入、高收入等五档来公布相关数据。现在统计局网站上也有这样的分类了。建议这项工作的面更广些,再就是相关部门在发布数据以及媒体在报道时,也不要图简单省事,可以对那些反映普通人状况的数据进行更多的告知。③: |, _0 `2 H' `, A: \! T  o" Z) e

    % {8 E. }% o! }4 I) k% `来自:http://dy.163.com/article/T1378363937706/9QMPV1DQ00964KE2.html
    - v( X9 U! A) j2 _2 Z9 M  E
    + O0 |# ~" Q% M' [; Y3 ]/ {--------------------------------------------------------------------------------
    ' R. g  k' d: k1 a3 ~8 G5 W2 h* Y* @' y8 H
    好,咱新闻看完了,来看看这篇文章到底能告诉我们一些什么:
    - n9 X& c! P& c- A/ B6 P
    ) r* ]# j" |4 \7 D  S* j; q; j  C       第一,我们先了解一下什么是平均数。在统计科学上把平均数分为两大类,即数值平均数和位置平均数,前者包括算术平均数,加权平均数和几何平均数,后者包括中位数和众数。通常情况下,我们所说的平均数是简单算术平均数,它是用来描述一个总体的大致水平的,如果数据分布的比较好(比如正好是钟形正态分布,那么这个平均数应该就在中间的位置上,理论上和中位数一致,偏态的则两者有所偏差)  {/ F# H9 m. t3 z& u0 C

    9 S1 M% p1 ?- j! o8 ~       第二,数值平均数家族成员区别:简单平均数——这个最常用的,公式可以百度,不细说(其实简单平均数是权数为1的特殊加权平均数)- M5 ^- K- Z* [9 l) @: U
           加权平均数——给予权重,为了平衡数据出现侧重不同的情况。
    - f& }0 D7 y6 D7 L       几何平均数——这个与前两者稍稍不同,他一般用于一些比率,增长率之类的。
    5 r! E, e/ a  }* i) j, A: Te.g:某种蔬菜的价格, 甲市场2元/kg, 乙市场3元/kg, 现从甲乙两市场各购买1kg, 求平均价格。
    3 \6 H0 Q" Y( L此情况应用算术平均数:(2+3)/(1+1)=2.5(元/kg)1 t6 d8 R! @4 \6 q
    其他条件不变, 若从甲市场购买2kg,从乙市场购买1kg,求平均价格。) Y  [3 ^  ^& O9 b' }
    加权算术平均数=(2*2+1*3)/(2+1)=2.3(元/kg)" H6 z1 V( y2 A' w1 _' N; D( h

    3 _% d$ `# z3 u/ V. q* j5 f       第三,中位数和众数2 p2 C( o, k0 y
           这两个和算术平均数区别就比较大了(当然标准正态分布除外)
    5 u  F7 v! ?; X7 A7 g* b: C       中位数也就是说一个数据集中,数据从小到大排列,在中间位子的那个数(奇数偶数的问题不作深究,课本都有公式),众数;顾名思义,在数据集里出现次数最多的数字。  @) d0 [2 X2 x' g( ]- K
      t+ B) P; U" n4 F5 v
    有同学要问了,既然他们都是反映总体水平的指标,我们该怎么选择呢?好问题,这就要说到他们几个的优劣性了。" F) R/ Y6 ?* T. v9 f% R: G% a
    4 m1 L# b% N" _+ x1 l: w( G) h* k: r4 X7 k
           算术平均数,计算简单,但容易受到极端值影响,若数据的差异(方差)比较大,往往它的代表性就不好了。——这也是为什么我们对平均工资那么深恶痛绝了!
    - M+ x- S0 n! t3 ?+ V( Y+ U       中位数,在分布比较好的情况下,他还是很有代表性的。因为他是在中间位置上的数,一半比他大,一半比他小。在方差较大的情况下,他可能比算术平均数更能反映情况,但往往这个数只看到了中间,头尾都忽视了。
    8 Y+ w- J' H* K* ~; r       众数,当然就是权重最大的那个,既然出现概率最高,那么他也是有代表性的。(只是若有N个数都出现了同样的次数,且彼此都不接近,就比较头痛了)3 J) U) P5 R. q
    ! m  O5 ^: j4 P& |, Z* m/ G
    说完这些,我们回到那则新闻:
    & q- K# {5 u; ~2 \% @* k①当中的问题,是我们经常听到的。楼主可以拍胸脯说,人家的数据是正确的(谁都不会傻到用假数据吧),但这个样本未必就是最具代表性的(也就是说他可能会是个有偏样本)。* E/ E+ o( N/ G- V( E" g2 l

    1 ]6 ?3 v* m8 z6 P②这就是我们遇到的第二个问题,受到极端值的影响。也许获得的样本不偏,但中国地大人多的,在一线城市的人民和在五线城市的人民感受肯定不同的,因为这里的平均数往往会是算术平均数,可能并未考虑到地域区别以及贫富差距和贫富比重的问题。或许,这里加权一下更有说服力。. L/ B& y- q) T3 l7 Z/ Y. `3 W
    7 d8 a( i6 f1 @" U7 v7 M
    ③这里提到的这个方案,有点类似中位数了,当然,分层之后的数据也许会更接地气!* f$ m, f7 h1 ]. z- Y" R3 c5 |5 w
    " v& t- A& d) B' Z' a1 }) N4 k
    楼主在这泛泛而谈,所谈之观点皆为本人个人的拙见,如果错了,希望大家及时指出,斧正楼主的思路!
    5 p$ U5 A& |3 }" T+ g( S" }
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    0

    主题

    10

    听众

    309

    积分

    升级  3%

  • TA的每日心情
    难过
    2016-8-4 20:44
  • 签到天数: 48 天

    [LV.5]常住居民I

    邮箱绑定达人 社区QQ达人

    群组2015国赛优秀论文解析

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-17 01:45 , Processed in 0.359663 second(s), 54 queries .

    回顶部