QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2428|回复: 0
打印 上一主题 下一主题

数据分析杂谈之“统计数据会说谎”

[复制链接]
字体大小: 正常 放大

937

主题

117

听众

3万

积分

升级  0%

  • TA的每日心情

    2020-10-25 11:55
  • 签到天数: 264 天

    [LV.8]以坛为家I

    自我介绍
    内蒙古大学计算机学院

    社区QQ达人 金点子奖 助人为乐奖 风雨历程奖

    群组2013年数学建模国赛备

    跳转到指定楼层
    1#
    发表于 2014-4-17 00:54 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

         最近关于数据造假的评论很多,数据说谎的情况有两种,一种是出于某种目的,人为的将公示的数据注入一些水分;另一种“假”则是因为对业务不了解或经验的不足而在数据解读上的一种误读。什么被平均啊,什么统计局这些都是老生常谈的案例,今天小编重新收录整理了一些案例供大家参考。


             “数据会说谎” 案例十篇(相关例子来自知乎和微博)

          案例一、@曹政 通过可控的客户端采样监测,得到了一定样本的,包含google搜索url特征的日志记录,得到google的搜索量;同样的样本下,采集到包含google adwords广告url特征的日志记录,得到google的广告点击数。 那么,理所当然&一厢情愿的 用点击数/搜索量,得到点击率。 但是,这个点击率是显著错误的,理由是,google的adwords广告点击,并不只发生在google的搜索结果中! 当时的情况是,点击率被高估了一倍。(其实已经区分了adsense和adwords广告点击的url特征,但是adwords也会出现在其他网站)

           对数据逻辑及相互关系的理解不透彻,就会带来错误的解读。
      
          案例二、.某同事,名校计算机博士,算法达人,做了一条曲线,A和B高度相关,得到结论,A会导致B,看一眼结论我就骂人了,狗屎结论,实际上是A和B均受C的影响,所谓高度相关是C的因素带来的,这是只看数据不懂业务的典型。
            这个不仅仅是不懂业务的典型,统计基础也不牢靠,亲,这个时候该试试偏相关系数。
      
          案例三、@曹政  样本偏差,特典型的就是沉默的大多数现象,简单举例,去IT论坛,发个投票,百度好不好,腾讯好不好,多数人会说不好。但是真正的用户是不会去IT论坛,更不会参与这种无聊的投票;所以这种投票得到的结论,你要真信,你就傻了。 此外,还有比如送礼品的票选,喜欢这种礼品的用户,本身就有倾向性,如果票选内容与礼品有关,那么结论显然是不可靠的。
             诸如此类投票数据娱乐成分居多,而对于样本偏差和偏好性的问题都是在问卷调查中明确需要规避的问题。
          案例四、@曹政  有人提到预测未来,补充一点,就是用户不知道自己的未来。这也是普遍做样本调查容易产生的误区。如果时间前溯10年,你问一个用户,你会去买苹果手机吗?他肯定会说,你是不是疯了。但是当真的很酷的苹果手机放到他手上,他才会有感觉。 这是有真实案例的,十几年前,手机还叫大哥大,还是大款们才特有的玩物,真有调查公司跑到路边采访行人,说你需要买手机吗,行人纷纷表示不需要。他们不知道这玩意对他们人生的改变有多大。10年前,又有类似的事情,上网当时被认为是不务正业的表现,报纸媒体开始忧心忡忡年轻人的网瘾和被网络的伤害;然后又有媒体去采访,很多人表示,上不上网无所谓。这些都是当年一些新闻电视里出现过的典型场景。如果你相信,你就真完了。
          这里的问题是,用户不能预知技术的发展和对人类群体乃至自身的改变;当然,有的人能看到,1997年,还在读书,我一直纠结大学毕业能做什么,第一次接触到了互联网,我坚定,这是改变人类的东西,这是我一辈子的职业。
             这个案例涉及的问题就有点多了,一是统计时效性的问题,拿10年前的观念和今天的观念对比明显就不合适了,二是统计环境的变化会对预测结果产生很大的差异,不在同一参照系内的对比是毫无意义的。

          案例五、@陈义 来自斯坦福讲义里的一个简单例子(plato.stanford.edu/entries…)。某大学历史系和地理系招生,共有13男13女报名。
                                Men     Women
           History           1/5   <    2/8
          Geography     6/8  <   4/5
           University     7/13   >   6/13
            历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:
    1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。
    2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)
         这个案例应该叫数据错觉或许更好些,和之前流传较广的找零钱的交易类似,“分母”很重要。

          案例六、@fenng :一个例子是当年Firefox用户与Mac用户对支付宝重要与否,单从浏览器数据统计看,Firefox访问支付宝的比例太低了。不过因为支付宝不支持Firefox,所以,这个比例不能用作判断的依据。Mac用户也是一样。再说一个,支付宝当年代缴水电煤的项目改版之后,发现缴费用户立刻暴增,产品人员欣喜若狂,后来白鸦同学分析一下,哦,原来那几天是每个月水电煤缴费高峰期,周期性的抽风。
           背景性问题,常识性问题,周期性问题、行业性问题….又回到了“扫地大妈”的传奇中,不解释!

          案例七、@冯沁原:选取音乐电台用户的一个子集,共2W人;分成AB两组,每组1W人;对每一组使用不同的推荐算法。统计在一天内每一组的用户一共点击了多少次喜欢的按钮和不喜欢的按钮。
          计算每组用户点击喜欢的按钮的比例 = 点击的喜欢个数/(点击喜欢的个数+点击不喜欢的个数)

          理论上这个值越高,说明这组用户越满意,也就说明用在这组上的推荐算法更好。

    后来发现这个结果没有统计意义…… 因为有些用户会一天给出上千个喜欢与不喜欢的反馈,这样的用户在AB两组中的分布决定了最终结果的好坏。
          改进方法是:需要去除这些噪音点,或者使用其他的统计值。

    ————————————————————-

          我们还针对AB两组用户分别统计了:平均每个用户每天点击喜欢的音乐的个数。按理说,这个个数越高,说明推荐算法越好。可是,我们又针对AB两组用户分别统计了:平均每个用户每天点击不喜欢的音乐的个数。按理说,这个个数越高,说明推荐算法越差。结果,发现在很多情况下,第一个个数高的算法,第二个个数也高。于是,使用单一指标也许不能很好的刻画一个算法。改进方法是:使用更多的指标来进行刻画,具体问题具体分析,寻找背后的原因。

    —————————————————————–

          现在建立了另外一套评估模型,具体效果正在评测中。我的建议是,把眼界放宽,从多个维度、多个角度、多个层次来看数据。把分析问题的原因作为目标,不断的改进自己的评估参数和方案。
         案例八、@马顺仁: 游戏中对很多内容或操作做数据监控,然后通过分析数据的提高还是降低,去判断用户对该内容的喜欢程度。但是单独看数据的提高和降低是没有意义的。例如,我们发现某项物品最近销售数据在下滑,我们可能就会下结论:这个物品受欢迎程度在下降。但这个结论是不准确的,必须结合着其他的数据一块看,例如DAU。
           如果DAU在下降,那么该物品的销售随之下降是正常的,如果结合着比例来看,有可能会发现虽然销售数据在下降,但是比例数据(即销售数/DAU)是在上升的。这样会明白,其实该物品的受欢迎程度并没有下降了,而是DAU下降了。而在DAU下降的同时,销售比例在上升,其实该物品的受欢迎程度反倒是提高了。
            和前面很多案例一样,都是单点看问题,这样往往得到的是以点盖面的结论。
           案例九、@刘德寰:#分析错误案例评论#之二:案例http://t.cn/zW2d7qG中,几个关键数据与结论值得推敲,1、45%拥有人人账户?计算下来是2.3亿(文中提到1.37亿),而@陈一舟 提出目标是达2亿;2、日均发3条以上消息的中美用户为20%和10%,这么规整的数,很少见;3、“用户粘性领先,活跃度渐走高”的结论没有数据支撑;
           案例十、@刘德寰:#分析错误案例评论#,案例http://t.cn/zWZFOOZ中,第1个结论不成立,因为网购女性占比上升有可能是欧洲杯导致男性网购减少,不能得出男性一看球女性就网购的结论;第2个结论也错,几乎所有时间点,15日都比1日高,可能的原因有:儿童节、天气热睡的晚、外出纳凉时间长等,退后原因无法断定是欧洲杯。
            如何练就火眼金睛?
            对于投票或公关性数据,千万别较真,较真你就输了,这类宣传类的数据自然是影响力越大越好。但对于决策辅助性的数据,也就是我们常见的解析后的数据报告,这类数据一旦被欺骗,那么依照此数据往前一步将不再是黄昏而是悬崖。如何练就火眼金睛,通常会从数据的真实性、客观性、时效性以及逻辑性等方面考虑,下面我们来看看《How to lie with statistics》一书的观点:
           火眼金睛五步法,打破砂锅问到底。
           1)谁说的?
           有没有立场问题,看清楚这一点后就不难理解为毛几大门户“08年奥运会期间”都说自己报道第一,到底谁第一呢?嘿嘿,当然找对自己有利的数据说。
           2)他是如何知道的?
           哦,原来是样本问题,后来有媒体澄清说,各家选用的调研公司和样本指标都略有偏差,所以造成了上述结果。嗯,都是样本惹的祸,还好不是临时工。
           3)是否有遗漏?
           现在不流行单兵作战,团体牛B才是真牛B。所以嘛,看单一指标难免会出现“一叶障目不见泰山”的现象,前面很多案例都是这样的问题,有时候,比比更健康。
           4)是否偷换了概念?
           田忌赛马的故事大家都懂,总拿自己的长处和别人的短处比那样不地道,前面说的奥运报道的事情就有类似的情况,案例五的斯坦福讲义问题也可以归为此类。  
          5)这个数据对我有意义吗?
          所以诸如投票之类的就此略过吧,“漏斗”般的人生照样精彩。


    1.jpg (69.63 KB, 下载次数: 86)

    1.jpg

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-12-30 18:50 , Processed in 0.526656 second(s), 59 queries .

    回顶部