QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1149|回复: 1
打印 上一主题 下一主题

大数据预测分析并不需要所有的数据

[复制链接]
字体大小: 正常 放大
迷途        

552

主题

7

听众

651

积分

  • TA的每日心情
    开心
    2014-6-7 09:00
  • 签到天数: 7 天

    [LV.3]偶尔看看II

    网络挑战赛参赛者

    自我介绍
    数学中国
    跳转到指定楼层
    1#
    发表于 2014-5-10 14:39 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta


      大数据的误区


      Michael Berry对大数据的浮夸之词颇不以为然。身为旅游网站TripAdvisor的分析总监,他认为更多的数据未必带来正面的业务影响,比如大数据和预测分析的例子。


      “很多预测分析的应用其实并不需要所有的数据。”Berry在Predictive Analytics World做主题演讲时说到。因此,对于数据科学家来说,重要的不是想着怎样分析所有的数据,而是看通过哪些数据可以得出真正有价值的结果。那么到底该怎么办呢?“对于这个问题,没有直截了当的答案。”Berry说。


      但是,通过每次增加一些数据的方式来测试预测模型的有效性,可以最终确定多少数据是足够的。比如,当Berry想知道旅游代理商对某家酒店或特定客户的标准价位时,采用计算平均值的方法:选取两个取均值,然后是三个…最终在1万个时均值稳定下来。如果取2万个,均值肯定会发生变化,但这已经没有必要了。


      “这就是关键所在。如果你有足够的数据,那么单纯数量上的增加就不会对结果造成很大的影响。”Berry说。


      如果过多的数据不会带来本质的不同,那么什么才是关键所在呢?“很多方面。”Berry表示。数据的纯净度、样本的合理全面以及专注于数据质量和挖掘的人才等,都会导致结果的不同。


      这些都是预测分析中的关键点,比如指出哪些变量可以使模型更健壮,或者结合哪些来源的数据可以发现新的模式。


      “比如风寒效应(wind chill factor)。”Berry说。结合了实际的温度和风速,才能切实分析出人体对于外界环境的感受。


      Berry并非唯一对当前大数据和预测分析境况有微词的人。咨询公司Rexer Analytics的创始人Karl Rexer认为数据科学家们多少都有点迷茫失措。在其2013年对数据挖掘从业者的调查看出,受访者反馈表明数据规模变得越来越大。但是,当被问及有多少数据被用于真正的分析时,答案和2007年的调查结果并无二致。


      这并非证明所谓大数据是一场闹剧。“对于传统的预测分析建模或数据挖掘项目来说,总体的样本规模并未出现增长。”Rexer说。


      缩写词汇命名  将分析术语转化为业务端所能理解的语言,是一种巨大的挑战。工资、人力和服务外包提供商Paychex是这样打破藩篱的:根据业务端的建议来进行描述。
      “当我们构建模型时,会举行一个命名比赛。”Paychex的建模分析师Tom Kern在本次Predictive Analytics World上表示。Kern的团队会向用户发送电子邮件,其中对模型进行了简短的描述,并且提供一些词汇供其使用。用户根据实际工作,创造缩写词汇,比如SAM表示销售预期模型(sales anticipation model),TIM表示领域识别和映射模型(territory identification and mapping model)。
      如果业务端用户的建议最终被采用,其就会收到一个礼物卡。由此,就可以根据诸如销售人员之类的用户的期望,从而思考预测模型该做些甚么。
      汰渍的策略变化  作为全球最大的零售商之一,宝洁公司宣布推出一款新型的低价汰渍洗衣剂,以此来吸引中端客户。该如何评价这个决策呢?
      Shel Smith是市场分析公司Twenty-Ten Inc.的创始人,他的看法是:“如果你发布类似的产品,不仅仅是在获取新的客户,其实还在鼓励已有的客户替换现有的高价产品。”
      鉴于当前经济形势的影响,这种担忧并非没有道理。但是,Smith对宝洁的策略持有信心。他认为,宝洁的策略是基于预测模型、海量数据和精准营销来达成的,可以在获取新客户的同时不影响现有品牌的销量。
      “宝洁肯定有很多我们不知道的过人之处,但是在获取新客户方面并无什么神秘的。”Smith表示。


    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    弘道        

    0

    主题

    13

    听众

    541

    积分

    升级  80.33%

  • TA的每日心情
    开心
    2015-1-11 23:28
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    自我介绍
    qu

    社区QQ达人

    群组IE与建模

    群组LINGO

    群组Mathematica研究小组

    群组数学建模培训课堂1

    群组第四届cumcm国赛实训

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-28 01:04 , Processed in 0.501395 second(s), 55 queries .

    回顶部