QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 752|回复: 0
打印 上一主题 下一主题

大数据时代预测更易失败

[复制链接]
字体大小: 正常 放大
迷途        

551

主题

7

听众

651

积分

  • TA的每日心情
    开心
    2014-6-7 09:00
  • 签到天数: 7 天

    [LV.3]偶尔看看II

    网络挑战赛参赛者

    自我介绍
    数学中国
    跳转到指定楼层
    1#
    发表于 2014-4-26 14:04 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
          纳特•西尔弗(Nate Silver)在《信号与噪声》一书对这句话提出了疑问。人们普遍认同的逻辑一般是:信息越多,信息流动速度越快,人们对未来的预测越准确,从而越能做出更合理的决策。但是且慢,你怎么知道你 Google 到的“信息”是有用的“信号”(有用的信息),还是干扰你的“噪声”(无关/无用的信息)呢?我的意思是,如果你在时间充裕,方法/模型适当的条件下,你可以辨别出信号,做出合理决策。但现实往往是,你基本上总是不会拥有充裕的时间,甚至使用的方法/模型也不合适。在信息增长越来越快的现在,我们面临这样的困境会越来越多。

          《自然》杂志曾刊登过一项研究,研究发现:美国几大政党对全球变暖的问题了解越多,他们之间达成共识的可能性就越小。 我们现在(这里的“现在”得比《信号与噪声》出版时间的2012年9月更早)每天产生250兆亿字节,如果信息每天以这个速度增长,其中有用的信息肯定接近于零。其中大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。其中有太多假设需要验证,有太多数据需要发掘,但客观事实的数量却是个相对恒量。人脑能力非凡,但根据IBM的分析,人脑的存储量不过是全球每天所产生信息量的百万分之一而已。我们对自己记忆的信息一定需要精心挑选才行。

           以美国经济预测为例。美国政府每年公布的数据,与经济指标直接相关的有4.5万个,而私人数据提供者要追踪高达400万个统计数据。一些经济学家忍不住想要把所有数据都混合在一起,并给一般的数据穿上优质的“外衣”。第二次世界大战之后只出现了11次经济衰退的情况,如果一个统计模型试图解释这11次衰退带来的后果,就必须从400万个数据中选择数据,由此得出的许多相关性都将会带有欺骗性。大数据专家热爱相关性,但如果我们不能分析出因果,我们永远无法确定该采用哪些指标去判断下一次经济衰退的迹象。

           人们将噪声误认为信号的行为,在统计学上被称为“过度拟合”(overfit)。人类大脑的工作方式是捕捉规律,并且预测。一般来讲,智商高的人的神经网络学习能力更强,这意味着他捕捉规律的能力也越强。捕捉规律能力强意味着,对于很少的样本中隐含的不明显的“规律”他们也能捕捉出来。

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-10-13 05:55 , Processed in 0.294412 second(s), 50 queries .

    回顶部