QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1462|回复: 1
打印 上一主题 下一主题

用“爆发”预测未来之你不知道的大数据

[复制链接]
字体大小: 正常 放大
QYY1994        

40

主题

17

听众

1233

积分

升级  23.3%

  • TA的每日心情
    奋斗
    2015-4-4 20:23
  • 签到天数: 126 天

    [LV.7]常住居民III

    跳转到指定楼层
    1#
    发表于 2014-12-2 21:38 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    本帖最后由 QYY1994 于 2014-12-2 21:42 编辑

         我曾说要和大家分享一些关于大数据的的话题,由于前一段时间比较忙,没来得及写,耽误了与大家的分享,在此先表示深深的道歉!
         我前一段时间看了一本书,是艾伯特-拉斯诺·巴拉巴西编著的爆发——大数据时代预见未来的新思维》,今天就和大家分享一下我的读后感,借用姜奇平的一句话,本书讨论了一个古老的问题:到底应该用决定论的观点,还是非决定论的观点,看待人类行为?希望大家能以此来感知一下这种崭新的预见思维。
         货币的流通就像布朗运动,一张2002年3月15日在俄亥俄州代顿市被标记的钞票,3年之后,却走完了6745公里的路程。花粉粒的运动,受到水分子的“无规则”撞击,而人类的活动,却是受到任务、责任与动机的影响。爱因斯坦推测出了花粉粒的平方根,那么在大数据时代,是否也存在属于人类自己的平方根呢?
         巴拉巴西认为,预测与现实总会存在差距,但有一点可以肯定,那就是似乎有一只无形的手在放慢人类行动的脚步。也许真的有一天,新闻不再播报昨天,而是像天气预报一样展示未来。量子力学是把人类预知能力发挥到极致的理论,但仍然还不能预测未来,那么我们每天接触的天气预报还具有对现实的可靠性与对人类行为的指导意义吗?一只蝴蝶翅膀的微微震动,在强大的不确定性条件下,即将到来的是暴风雨还是晴空万里,真的在数据分析中能被确定吗?
         泊松通过概率的方式把人类行为的发生与否用有多大的可能性表现出来,就像掷骰子和电话交换机接到的电话数一样,这样人类行为在概率测度的条件下变得可预测了。但进行如此预测的条件是人类的行为必须是随机过程,这样似乎就把不可预测性与偶然性同日而语了。如果不可预测性与偶然性等同,那么偶然性又怎么预测呢?唯一的解释就是泊松眼里的预测与我们生活中的追求有所不同。就像爱因斯坦推测出单个原子的运动不可预测,但在原子运动是随机的假设条件下,就能推测出原子离释放点的距离遵循扩散理论。对于个体而言,行为可以是无序的,但对于群体而言,最终会表现出一致的规律与模型。就像一个人短时间的资料不能反映其行为,但是长期的数据挖掘就能掌握其规律。挖掘到的信息最终将会影响到保险公司、连锁酒店和购物中心。
         如果人类的行为是随机的,那么毋庸置疑其其必然服从泊松分布,但大量的人类统计数据表明并非如此,似乎每一次活动都存在爆发点。不管是发邮件的频率还是贫富人的比例,甚至是世界战争的时间分布均是如此。理查森发现遵循一个简单的数学规律——越少就越大,此时我们发现了一种新的运行规律。跳出了泊松过程描述的那种掷硬币般枯燥而刻板的节奏,释放泊松理论禁锢的异常值,一个刻画那只放慢人类节奏的无形的手的新名词——幂律,它完全揭开了行动迟缓的钞票的神秘面纱。
         既然人类的行为不是随机的,那么就肯定受到某个顺序的操控,而爆发点与幂律就隐藏在其中,巴拉巴西称其为优先级。在即将入睡前思维暴走时,优先级显得尤为重要。优先级一旦产生,我们的响应时间就会就会变得不均匀,于是爆发点由此而生。但由于时间的稀缺性,优先级的出现必然导致排队的发生,于是长时间留在清单上被搁置的事件就变成了异常值。生活节奏的加快,人类需要处理的事情日趋增加,这并不是优先级出现的条件,也并不是幂律出现的原因。不管我们的信件是在电脑里以光速传播,还是凭借蒸汽轮船漂洋过海,我们的通行模式都未曾改变。“爆发”并不是电子时代的副产品,而是显示出了人类更深层次活动的真理。信件模型与优先级不同之处在于,信件模型把优先级模型中处于临界状态的通信分离了出来,因为它们更好的服从指数分布,而保留了超临界状态下的幂律分布。
         生命远不止流畅的随机运动那么简单,而是在所有的时间尺度上都具有爆发性,就像人类的健康一样,我们的健康跟优先级的联系比原来想象的要多得多。一旦优先级起了作用,那么爆发也就会随之而来。其实知识也是一样,灵感的火花可能照亮几个世纪以来都未明了的混沌,然后很长一段时间又如沉睡了一般。
         有些随机运动会比较飘忽不定,这种运动就遵循幂律分布,这种模式有属于自己的特征,于是巴拉巴西给了它们一个特定的名字——列维飞行,可以算是一种特殊的随机运动,而把它与其它运动区别开来的特征就是幂律。不止是前面提到的钞票,动物的行动轨迹也与幂律不谋而合。钞票的运动并不代表人类的运动,而更像是一个被人们不断传递的接力棒,可是为什么会满足列维飞行模型呢!这并不是我们每个人都在做列维飞行,而是因为我中间存在“异类”。因为异类的存在,我们又回到了原点,我们的行动不再符合列维飞行模式,而是手机模型让我们找到了回家的路!
         一旦涉及人类行为的可预测性问题,幂律规律会被高斯分布所取代,而预测的精度也会被熵所量化,每个人都是习惯的奴隶,规律的生活让我们的行踪变得极易掌握,但大多数非零的熵意味着随机性的存在,即每个人都存在一个最大的可预测性。由于可预测性的出现,我们每个人都回到了泊松和高斯的世界里,所有事情的发生都变得很“正常”,数据显示我们的可预测性程度很高,熵低也并不会禁锢我的未来——只有当知道我们的过程历史的时候,才能做出预测,但在大数据时代里,这一切都是可能的。
         我们能够获得的数据量增多,对别人也会越了解,这样就难免会触及别人的隐私。隐私一直都是一个敏感的词,如果存在任何时候都知道你行踪的lifelinear,那么,所有的隐私保护都是在做无用功。每个人都在极力保护自己的隐私,但为了真正的或认知上的利益,我们又会以牺牲自己的隐私为代价,最后,每个人的隐私都会暴露于大庭广众之下。所以我觉得,以后人们会越来越放弃自己的隐私保护,与其做无谓的挣扎,还不如坦然面对!
         尽管在社会层面上预测对我们来说仍然是迷雾一团,但就个人层面而言预测已经成为了可能。我们根深蒂固的不可预测性不需要上升到社会层面,就像不能预测出气体中每个分子的运动轨迹,但这并不能阻止我们预测气体的压强和温度一样。对于未来,无非有两种可能,第一会出现另一个海森堡告诉我们波普尔是对的,精确的预测根本不可能;还有一种可能就是只要掌握的信息足够多,即使对于异常值也能唯一量化,就像可以通过对你朋友的行为分析来研究你偏离惯常的轨迹一样,因为我们生活在相互连通的世界里。
         永远不要低估数据的力量,但是对于数据的分析现在还没有人能做到完美,不管是正态还是幂律,不管是随机还是爆发。我相信未来的预测一定会成为可能,那些难以企及的预测未来的梦想,一定会一步步的变成现实!




    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    377

    主题

    148

    听众

    5856

    积分

    升级  17.12%

  • TA的每日心情
    奋斗
    2016-7-14 13:54
  • 签到天数: 219 天

    [LV.7]常住居民III

    社区QQ达人 元老勋章 发帖功臣 新人进步奖 优秀斑竹奖 金点子奖 原创写作奖 最具活力勋章 助人为乐奖 风雨历程奖

    群组2015年美赛冲刺

    群组高等数学串讲

    群组2014第三期英语写作

    群组SAS数据分析大赛冲刺

    群组2015美赛优秀论文解析

    现在是大数据时代。大数据的脚步已经离我们越来越近。甚至已经进入到了我们的生活当中!
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-28 01:12 , Processed in 0.306098 second(s), 60 queries .

    回顶部