抽样调查,想说无偏不容易
调查问卷你肯定知道,多半还做过。在统计上,问卷调查属于抽样调查。再大规模的抽样调查,都可能存在着意想不到的陷阱。不妨让我们穿越到 1936 年的美国,看一个被许多书本都引用过的实例吧。
1936 年美国总统大选在即,当时一本著名杂志 《文学文摘》 就在读者中做了一次问卷调查,断言共和党的兰登即将以 57% 对 43% 的绝对优势大胜民主党的罗斯福——这可是根据 240 万份调查问卷得到的结果。这么大规模的调查,如同宣告了兰登的胜利,可是,最后的结果却让人大跌眼镜:罗斯福以 62% 的支持率成功连任美国总统。出现了这个戏剧性的丑闻后,《文学文摘》业绩直接掉落为零,最后竟然倒闭了。对于《文学文摘》来说,他们的问题出在哪里呢?
现在看来,《文学文摘》的调查问卷虽然数量庞大,但是样本构成大有问题。首先,最可能看到这个调查的是这个杂志的常客,而他们参加调查的动机各有不同。另外,这个话题更能引发人的兴趣,有些则只是很少的人关心。这都会导致最终参加调查的人是一个有偏的样本。结论可能代表了这些人群,却不能推广到全体。
其次,问卷的回收率只有 24% ,忽略那些没有被回收的问卷就等于是忽略了剩余 760 万人的意见。《文学文摘》杂志社还通过电话调查的方式对自己的读者进行了抽样,但在 1936 年,并不是每一个家庭都能装得起电话——那些订阅杂志、用电话的人家往往都是有钱的人,他们并不能代表全美国的选民意见。最终,这些看起来不算起眼的问题对他们的预测结果产生了巨大影响,事情的发展也走向了完全相反的方向。
如果我们现在做一个调查,看一看在最初恢复高考的三年中进入几所名牌大学就读的学生如今的年收入,你一定会得到一个高得吓人的数字。我敢如此肯定并不是我熟悉他们的社会成就,而是因为我了解调查的缺陷。可以想见,当年的那些大学生虽然有案可查,但能够准确联系调查的却只有一部分较为成功的人了。其中有一些人虽然联系上了,却不一定愿意接受调查。最后,还不能排除一些人受赞许倾向的影响,有意无意地提高报告自己的收入水平。最终,调查员只回收了那些成功人士的数据,而沉默的大多数却被“统计式”地忽视了。