QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2272|回复: 0
打印 上一主题 下一主题

飚哥关于大数据时代中“样本=总体”的看法

[复制链接]
字体大小: 正常 放大

937

主题

117

听众

3万

积分

升级  0%

  • TA的每日心情

    2020-10-25 11:55
  • 签到天数: 264 天

    [LV.8]以坛为家I

    自我介绍
    内蒙古大学计算机学院

    社区QQ达人 金点子奖 助人为乐奖 风雨历程奖

    群组2013年数学建模国赛备

    跳转到指定楼层
    1#
    发表于 2014-4-25 15:12 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    样本 =  总体
    大数据时代的背景下,数据预处理过程中会颠覆传统统计学的一些经典理论,会提出样本 = 总体,数据预处理后的数据是未降噪的。这是《大数据时代》一书中的观点,很多人会质疑这个观点,总是觉得数据是应该去噪声的。
    我是支持书中这个观点的,《大数据时代》一书中还有一个最突出的观点是:“大数据时代,相关关系大于因果关系”。大数据分析关键在于要探索相关关系,但不可否认一点:相关关系是有黑箱性的——即找到相关关系后,我们往往不得不承认这些相关关系是有因果关系的,但我们直接看不到因果关系,但我们可以对因果关系做一个预测。
    这里我举一个例子方便更多人理解为什么不去噪声的原因
    在我们生活的社会里,话费是不等于花费、化肥、花肥概念的。但如果想往上缴费, 我们会理所当然的去百度输入“交话费”,但是阴错阳差,我们键入了“交化肥”。但是百度依然会显示出你想要的结果,如下图所示:


    1.png


    谷歌也会有一样的结果:

    1.png


    我们把时间定位到百度创业第一天,“交化肥”这个词在搜索过程当中属于正常点,但是搜索后的用户大部分人都没有搜索到自己想要的东西,反而去了“交话费”的结果中选取了自己要找的链接,这时搜索引擎把它看做噪声点,如果忽略掉它那势必会给百度或者google造成一笔损失,所以搜索引擎必须将这个噪声点考虑在内。这是一种相关关系的体现,过程中我们也找到了因果。恰好解决了“样本 = 总体”的概念问题。这样也为google减少了一笔损失,因为google的经营模式中,成功通过google搜索结果交一笔花费,google是要吃会扣的。

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-5-11 15:45 , Processed in 0.291445 second(s), 58 queries .

    回顶部