查看: 2662|回复: 1

【从零开始学统计】走出平均数理解上的误区

[复制链接]

字体大小: 正常放大

chengshiyu

7 主题	10 听众	648 积分

TA的每日心情

	怒 2016-4-14 15:44

签到天数: 130 天

[LV.7]常住居民III

群组: 2013认证赛B题讨论群组

群组: MCM优秀论文解析专题

群组: 2014年地区赛数学建模

群组: 国赛讨论

电梯直达

1^#

发表于 2014-5-7 22:47 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

首先先引入一段小新闻，从中涉及到的一些知识点楼主会标出：

　　仅有“人均”是不够的
　　日前，发改委发展规划司司长徐林表示，我国人均GDP已达到6700多美元，属于中高收入国家的行列。目标是希望通过“十三五”的努力，用世界银行的标准接近高收入国家的行列。
　　统计数字常遭遇吐槽
　　赵丽：“我国人均GDP已达到6700多美元，属于中高收入国家的行列”的言论一出现，就遭到了许多人的“吐槽”，有不少网友表示“被中高收入”，拖了国家后腿。
　　许建立：其实，普通人对统计数据的“不适”已经不是第一次，这些年来“被平均”、“被幸福”等情况屡屡出现。如2012年，某大学发布的《中国民生发展报告2012》中提及，全国家庭的平均住房面积为116.4平方米。许多人看到后的第一反应即是不相信。
　　肖龙凤：这种感觉其实很好理解。对普通人而言，更多的是根据自身生活状况去印证、判断统计数据是否真实。如果他发现自己以及周围人的情况和数据有不小的出入，很自然就会产生疑问。①
　　人均数难以反映差异
　　赵丽：不过，统计数据和居民感受不一致，并不代表数据就不准确，这里面可能有一些别的因素。比如说，人均GDP和老百姓的人均实际收入是两个概念，如果混为一谈就可能造成误解。
　　肖龙凤：而且，现在公布的统计数据常常是“平均数”，它是经过“削峰填谷”、加权计算后得出的，是一个总体性指标。平均数有其局限性，很容易掩盖个体之间的差异。
　　许建立：是啊，低收入行业、低收入人群很容易产生这样一种感觉：自己这一群体的实际情况没有得到足够的关注，反而被热热闹闹的“平均数”给掩盖了。就像那个段子说的，“张家有财一千万，九个邻居穷光蛋，平均起来算一算，个个都是张百万。”②
　　细化统计更有说服力
　　赵丽：人们也有这样的担心：光看平均数，我国有些指标已经很不错了，如果政府部门因此盲目乐观、沾沾自喜，因此忽视有些群众生活还很艰难的现实，那就麻烦了。
　　许建立：由此看，既然平均数有局限，那就应该向社会提供更多的数据，将更真实的情况反映出来。有媒体报道说，国家统计局已经在推动互联网大数据在政府统计中的应用。我觉得这是个好趋势，将大数据利用好了，分类化、精细化就更容易实现。
　　肖龙凤：我注意到，统计部门在几年前就提出，在收入统计时进行五等分，根据城镇居民和农村居民中最低收入、中等偏下收入、中等收入、中等偏上收入、高收入等五档来公布相关数据。现在统计局网站上也有这样的分类了。建议这项工作的面更广些，再就是相关部门在发布数据以及媒体在报道时，也不要图简单省事，可以对那些反映普通人状况的数据进行更多的告知。③

来自：http://dy.163.com/article/T1378363937706/9QMPV1DQ00964KE2.html

--------------------------------------------------------------------------------

好，咱新闻看完了，来看看这篇文章到底能告诉我们一些什么：

   第一，我们先了解一下什么是平均数。在统计科学上把平均数分为两大类，即数值平均数和位置平均数，前者包括算术平均数，加权平均数和几何平均数，后者包括中位数和众数。通常情况下，我们所说的平均数是简单算术平均数，它是用来描述一个总体的大致水平的，如果数据分布的比较好（比如正好是钟形正态分布，那么这个平均数应该就在中间的位置上，理论上和中位数一致，偏态的则两者有所偏差）

   第二，数值平均数家族成员区别：简单平均数——这个最常用的，公式可以百度，不细说（其实简单平均数是权数为1的特殊加权平均数）
   加权平均数——给予权重，为了平衡数据出现侧重不同的情况。
   几何平均数——这个与前两者稍稍不同，他一般用于一些比率，增长率之类的。
e.g:某种蔬菜的价格, 甲市场2元/kg, 乙市场3元/kg, 现从甲乙两市场各购买1kg, 求平均价格。
此情况应用算术平均数：（2+3）/（1+1）=2.5（元/kg）
其他条件不变, 若从甲市场购买2kg，从乙市场购买1kg，求平均价格。
加权算术平均数=（2*2+1*3）/（2+1）=2.3（元/kg）

   第三，中位数和众数
   这两个和算术平均数区别就比较大了（当然标准正态分布除外）
   中位数也就是说一个数据集中，数据从小到大排列，在中间位子的那个数（奇数偶数的问题不作深究，课本都有公式），众数；顾名思义，在数据集里出现次数最多的数字。

有同学要问了，既然他们都是反映总体水平的指标，我们该怎么选择呢？好问题，这就要说到他们几个的优劣性了。

   算术平均数，计算简单，但容易受到极端值影响，若数据的差异（方差）比较大，往往它的代表性就不好了。——这也是为什么我们对平均工资那么深恶痛绝了！
   中位数，在分布比较好的情况下，他还是很有代表性的。因为他是在中间位置上的数，一半比他大，一半比他小。在方差较大的情况下，他可能比算术平均数更能反映情况，但往往这个数只看到了中间，头尾都忽视了。
   众数，当然就是权重最大的那个，既然出现概率最高，那么他也是有代表性的。（只是若有N个数都出现了同样的次数，且彼此都不接近，就比较头痛了）

说完这些，我们回到那则新闻：
①当中的问题，是我们经常听到的。楼主可以拍胸脯说，人家的数据是正确的（谁都不会傻到用假数据吧），但这个样本未必就是最具代表性的（也就是说他可能会是个有偏样本）。

②这就是我们遇到的第二个问题，受到极端值的影响。也许获得的样本不偏，但中国地大人多的，在一线城市的人民和在五线城市的人民感受肯定不同的，因为这里的平均数往往会是算术平均数，可能并未考虑到地域区别以及贫富差距和贫富比重的问题。或许，这里加权一下更有说服力。

③这里提到的这个方案，有点类似中位数了，当然，分层之后的数据也许会更接地气！

楼主在这泛泛而谈，所谈之观点皆为本人个人的拙见，如果错了，希望大家及时指出，斧正楼主的思路！

zan