数学建模社区-数学中国
标题: 调查统计数据: 你还敢相信吗? [打印本页]
作者: 99dmg 时间: 2005-4-16 22:11
标题: 调查统计数据: 你还敢相信吗?
2005年,中国面临的挑战是任何一个经济学家都未曾经历的,没有人可以充当市场经济的先知,在最需要科学数据支持的时候,迎来了第一轮真正意义的数据恐慌……
作者: 99dmg 时间: 2005-4-16 22:14
60岁门卫操纵广州楼市?
# H* |' r6 H% b0 T! l, m$ d
广州做接待大厦传达的陆先生或许永远也不知道,自己间接炒高了2004年广州商品房的空置率。
0 X; c7 N- n6 q/ w L$ G 在天河区东瑞商住楼做接待工作的陆先生最近有件高兴事:只要回答出楼里面的入住比例,就可以获得100元钱。
3 P% y; ^' [2 S' v' ^
2004年12月24日,陆先生又获得了这个好差事,在填问卷的时候,陆先生因为怀疑“入住比例”可能和纳税有关,就把原本70%的入住比例写成了45%。
, k$ E& u, a" \9 h4 G 一个月以后,广州一份都市报刊出消息:“据权威数据调查公司统计资料显示:本季度广州商住楼空置率为26%,比上季度上升3.4个百分点,与去年同期相比……”,专家还发表了评论:“……陈教授表示:出现目前的情况是国家宏观调控政策在起作用,根据国际通行的惯例……”
2 r1 s) {+ P$ [" {9 {
调研环节的细小过失,往往汇集成完全背离现实的错误结论,所谓“失之毫厘,谬之千里。”
|' w# W& G5 q
[此贴子已经被作者于2005-4-16 22:28:26编辑过]
作者: 99dmg 时间: 2005-4-16 22:15
2004年11月17日,北京的四位地产大亨会同万通集团董事局主席冯仑,举行了一次特别的记者见面会。会议上,潘石屹、任志强等人表示:质疑国家统计局对于房地产调研的部分统计结果,并指出地产指数系统、中房等指数系统有“很大水分”。地产企业已经自己投资地产数据的收集和分析,独立进行中国房地产数据的研究,不久将向社会公布研究结果。
2004年12月20日,国家统计局向新闻媒体宣布,将把统计系统的操作方法和流程,向社会公示。虽然统计部门没有当众表示这一举动与“地产指数质疑事件”是否存在关联,但由此带来的数据恐慌却在其他重点行业慢慢蔓延开来。
数据无疑是把双刃剑。2004年,关于中国房地产泡沫的争论几乎持续了整整半年,而争论中最有利的武器就是数据,对立双方都希望找到相应的数据来支持自己的观点。国家房地产指数系统公布的数据,渐渐成了“泡沫论”的有力论据,而这带来的直接结果,就是可能导致国家进一步打压地产投资的新政出台。于是,北京部分地产企业联合起来,质疑国家统计局的数据,并且宣称“我们自己的数据结果已经出来了,一点泡沫也没有!”如果不是今年的宏观调控,如果不是触及了部分行业的利益,谁会关心那些枯燥的数据呢?数据的恐慌才刚刚光临发展中的中国。
商业企业质疑国家统计系统的研究成果,在民间屡见不鲜,但是如此针锋相对的冲突却是第一次,人们开始思考:如果说统计部门的数据都不能相信,我们还能相信什么?如果赖以制定决策的数据如此脆弱不堪,中国的数据供应企业的未来将向何处去?
作者: 99dmg 时间: 2005-4-16 22:19
造成数据恐慌的35种现象
: `" \) v) m1 z& e5 z
一 问卷设计阶段
: q# g0 Z4 I' _3 t1 修改提问方法,实现问卷暗示。问卷设计者可以使用误导、暗示词语,影响被访问者真实意见的表达。如:某某企业在2004年进行了大量改善投资者关系的努力,请选择您的满意程度。由于问题中进行了假设——“大量的努力”,构成了对被访问者直接的暗示。
# Z/ W! U# `1 U2 Q- E/ g( C3 D; H4 S[此贴子已经被作者于2005-4-16 22:29:44编辑过]
作者: 99dmg 时间: 2005-4-16 22:21
2 操纵提问逻辑,导致结论失实。为了能实现倾向性引导,问卷设计者通过调整问题的顺序来实现对调查结果的影响,例如:首先询问“您是否愿意通过本次调查加入某某商场的消费者俱乐部?”然后再问消费者对这家商场的满意程度。
作者: 99dmg 时间: 2005-4-16 22:22
3 通过刻意提醒,打击操纵者竞争对手。例如:2004年一家零售企业曾出现供应商丑闻。而竞争对手操纵的一次调查中,刻意提到食品安全与商业信誉是零售企业的命脉,再询问消费者评价。
作者: 99dmg 时间: 2005-4-16 22:24
4 操纵备选项,屏蔽竞争对手。例如:在进行食用油产品调查过程中,将对手产品系列中主力产品屏蔽在选项之外,并根据数据结果绘制市场份额图表,在渠道商中进行宣传。
作者: 99dmg 时间: 2005-4-16 22:25
5 调整选项顺序,实施问卷暗示。在一些出示选项的问题中,把操纵者产品名称放在首位,请消费者进行选择,或者在无提示问题中进行提示,都可以间接提高“首选比例”。
作者: 99dmg 时间: 2005-4-16 22:26
6 操纵测量尺度,误导调查结论。例如:您如何评价某电视产品的售后服务?非常好、略好于平均水平、满意、需要改进。因为问卷选项语气和缓,意见又不均衡,客观上实现了提高满意程度的操纵效果。
作者: ilikenba 时间: 2005-4-16 22:46
令人触目惊心!这样人们无法通过数据了解真实情况,最终欺骗的还是自己!
作者: 99dmg 时间: 2005-4-19 14:32
二 执行阶段
7 缩减执行成本,导致调查精度下降。例如:调查过程中过于仓促、访问佣金不充足,都可以导致被访问者回答问题精度降低,按照“马太效应”的原理,原本很高的数据被进一步提高,结论呈现出夸大的一边倒,例如:多品牌的零售数量调查中,基数较小的品牌往往被低估。
作者: 99dmg 时间: 2005-4-19 14:35
8 复核不足,对执行公司督导不利。数据采集拥有严密的后期复核程序,这也是对执行过程进行监督控制的主要手法,其意义不只是发现虚假问卷,更多是形成对正在执行项目的威慑。
作者: 99dmg 时间: 2005-4-19 14:51
9 执行公司陷入价格竞争,执行过程弄虚作假。为了得到业务,目前执行公司的价格竞争已经接近成本底线,出于保证利润的考虑,很多项目在发包的过程中,已经注定无法按照科学方式执行。
10 企业通过阶段性调整销售策略,左右监测数据。操纵者为了获得良好的第三方数据,在调研执行阶段可以调整促销策略和公关策略,通过增加进货、举行顾客沟通会等方式实现对数据的操纵。
11 利用道具、礼品等方式影响调研执行。操纵者利用赠品、改变访问现场细节等方式,实现现场暗示,左右数据采集。采用协助调查或提供二手资料的方法来误导数据结果。为了应对国家有关部门、机构的普查,操纵者刻意使用虚假数据进行呈报,以获得荣誉。例如:地产企业虚报业绩获得TOP评价。
作者: jesonchang 时间: 2005-4-22 07:39
oops
作者: 99dmg 时间: 2005-4-30 16:00
三. 统计分析阶段
12 克隆数据,伪造问卷。调研机构在实行了偷减样本数量以后,需要在统计分析之前对样本数量进行处理,以免露出样本不足的痕迹,例如:尽量使用百分比,减少绝对数的使用,或者干脆对数据记录进行不规则克隆。
作者: 99dmg 时间: 2005-4-30 16:01
13 调整数据检索方式,断章取义。例如:在一次民意调查中,朝阳区的私营企业对本市的投资环境表示满意,而其他区域的满意程度很低。调查机构就把朝阳区的图表作为全市满意程度的例证进行解读,“整体满意程度很高,仅朝阳区就达到了95%。”而不对外提供整体满意程度数据。
作者: 99dmg 时间: 2005-4-30 16:02
14 不执行科学的数据清查,容忍逻辑错误和恶意极值。当调查中存在极值(远远高出平均水平的数值)时候,一些调研机构不能进行复核,而是直接采用,并只进行平均数分析,形成了数据误导。
作者: 99dmg 时间: 2005-4-30 16:03
15 操纵者直接篡改数据。由操纵者参与选择数据对比、分组解读方式,误导受众。操纵者得到数据分析的初稿,往往对不利数据进行删除或篡改。
作者: 99dmg 时间: 2005-4-30 16:04
16 操纵分析人员。操纵者为了包装经过篡改的数据,往往给分析人员提供虚假的背景资料,参与造假的调查机构也会主动寻找能够符合数据的证据,来对数据进行合理化包装。
作者: 99dmg 时间: 2005-4-30 16:05
四 结论与报告撰写阶段
17 违规使用不合理的加权权重。一些调研结果是经过加权处理的,而决定权重多少和依据的往往是分析人员,一些研究机构往往在这个阶段使用带有倾向性的权重。例如:首选、次选的赋值。
作者: 99dmg 时间: 2005-4-30 16:06
18 利用无效的交叉分析来体现出资方的意图。在常规分析不能体现操纵者目的的情况下,一些调研机构往往使用无效的复杂交叉分析来误导受众。例如:某地产企业的报告中声称:本企业在22岁-35岁的北京本地私营业主心目中是可信赖的品牌,实际上调查中这部分人的数量还不到10个。
作者: 99dmg 时间: 2005-4-30 16:07
19 与相关企业以往公布的数据进行对照调整,增加可信度。例如:明明调查过程中的男女比例为3:7,但是为了报告看上去可信,一些调查机构往往在数据发布之前参照其他权威机构的相关数据,对调查进行修正和完善,让数据看上去可信度更高。
作者: 99dmg 时间: 2005-4-30 16:08
五 数据发布包装阶段
作者: 99dmg 时间: 2005-4-30 16:09
20 数据分析、采集方法,寻求学术掩体。例如:在数据发布会上聘请知名学术机构的专家充当嘉宾或者顾问,同时请人进行研究方法的统计学包装,直到大部分的受众根本看不懂的程度,虚假数据的学术掩体才算真正完成。
作者: 99dmg 时间: 2005-4-30 16:10
21 操纵媒体,打击竞争对手的商业数据。例如:调动企业的媒体关系,发布对竞争对手不利的数据新闻,既打击了对手,又能落一个低调的好名声。
作者: 99dmg 时间: 2005-4-30 16:10
22 操纵发布,增加数据影响。资助调查机构对数据进行宣传推广,增加数据的影响范围;把数据变成销售道具,应用到行销第一线。
作者: 99dmg 时间: 2005-4-30 16:11
23 让假数据成为政策。操纵者千方百计把数据提供给有关决策部门或领导,以影响政策法规的制订。例如:借助名人的演讲,提供给行业协会等。
作者: 99dmg 时间: 2005-4-30 16:12
24 操纵者与调查方相互鼓吹,结成同盟,共同维护数据谎言。例如:操纵者对客户说:“某某机构是业内最权威的,他们自主调查的数据显示……”,而调查机构则对外宣称:“我们完全自主调查,对于某某企业的数据我们完全按照国际标准进行调研获取……”。
作者: 99dmg 时间: 2005-4-30 16:13
25 调研机构调整调查日志,配合最后完成的调研结论。统一所有口径,从调研立项到执行、分析、发布,销毁真实数据记录,保证不留下篡改数据的痕迹。
作者: 99dmg 时间: 2005-4-30 16:14
六. 立项阶段
26 操纵调研议题。例如:如果操纵企业的产品口碑很差,那么在调查过程中就尽量减少满意度评价,或者只进行部分优势项目的评价测试,只签协议不写细节。操纵者所付出的费用不只是发起有利于自己的调查,更重要的是获得调查好评,一般此类合作都有协议,而调查机构多予以否认。
作者: 99dmg 时间: 2005-4-30 16:15
27 事先约定数据结果。多数的结论约定是口头的,或电子格式,很少形成书面的文件。例如:约定市场占有率、客户满意程度的比例范围。但这种形式多用来操纵部分数据。
作者: 99dmg 时间: 2005-4-30 16:17
七 抽样阶段
作者: 99dmg 时间: 2005-4-30 16:17
28 抽样技术陈旧,无法应对新的调研情况。随着社会人群居住情况、意识形态的改变,很多抽样的方法已经无法应对现实的调研环境。例如;目前城市家庭的人口数量在逐渐减少,有的小区定位成两口之家的青年公寓,有的则是老年社区,传统的抽样方法无法完成这类的甄别判断。
作者: 99dmg 时间: 2005-4-30 16:18
29 抽样控制存在众多疏漏、敷衍塞责。市场调查的抽样部分多在执行公司完成,也有按照执行公司提供的地图完成初步抽样,然后交给执行公司完成。为了降低执行的难度,执行公司往往更希望选择较为配合,且访问酬金作用显著的区域进行抽样。
作者: 99dmg 时间: 2005-4-30 16:18
29 抽样控制存在众多疏漏、敷衍塞责。市场调查的抽样部分多在执行公司完成,也有按照执行公司提供的地图完成初步抽样,然后交给执行公司完成。为了降低执行的难度,执行公司往往更希望选择较为配合,且访问酬金作用显著的区域进行抽样。
作者: 99dmg 时间: 2005-4-30 16:18
29 抽样控制存在众多疏漏、敷衍塞责。市场调查的抽样部分多在执行公司完成,也有按照执行公司提供的地图完成初步抽样,然后交给执行公司完成。为了降低执行的难度,执行公司往往更希望选择较为配合,且访问酬金作用显著的区域进行抽样。
作者: 99dmg 时间: 2005-4-30 16:19
30 资金或时间无法执行科学抽样。目前国内的很多项目因为样本数量受到预算的影响,样本量过少,根本无法使用科学抽样方法进行分配。调研机构为了获得更多利润,在调研抽样过程中减少样本数量,只保证样本的相对比例,通过减少样本数量来节约成本。这种情况在很多的公众调查中尤其普遍,专项调查中少有发生。
作者: 99dmg 时间: 2005-4-30 16:20
31 降低人群属性的筛选标准。人群属性越是严格细致,调研的成本越高,例如:一项针对职业经理人的调查,要求月收入在8000元以上,年龄在30岁-50岁之间,获取合格样本的难度很大。调查机构往往在实际执行中放松限制,来保证进程和利润。
作者: 99dmg 时间: 2005-4-30 16:21
32 以数据库为名,操纵企业调用数据,从而使数据失去公正性。企业以提供数据为名,限制了调研机构的抽样,但是鉴于成本方面的考虑,部分调研机构多采取自主抽样与数据库结合的方式。
作者: cyi79 时间: 2005-8-12 18:05
在中国调查公司的数据水份很大,官方的也一样.
| 欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) |
Powered by Discuz! X2.5 |