- 在线时间
- 49 小时
- 最后登录
- 2014-6-21
- 注册时间
- 2014-3-5
- 听众数
- 9
- 收听数
- 1
- 能力
- 10 分
- 体力
- 1012 点
- 威望
- 50 点
- 阅读权限
- 60
- 积分
- 1143
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 329
- 主题
- 445
- 精华
- 0
- 分享
- 0
- 好友
- 16
升级   14.3% TA的每日心情 | 衰 2014-6-21 01:29 |
---|
签到天数: 45 天 [LV.5]常住居民I
- 自我介绍
- 没有
 |
大数据是当下最火热的一个词汇。因此,以一篇阐述大数据是什么而不是什么,为何它对每个人都很重要的文章开始我的“大数据专家”专栏也是情理之中了。
有一件事是肯定的:大数据将影响每个人的生活。但是话说回来,我认为“大数据”并未被明显界定,并且也不是十分恰当。同时我认为大数据完全被过度炒作了,但这仅限于特定领域(软件供应商和咨询公司需要通过这些流行语来激起客户兴趣以此达到销售新产品与服务的目的)。希望这篇文章可以解释和揭秘大数据流行及其炒作的幕后。
简介
从根本上来说,大数据指的是我们收集与分析世界所产生的大规模数据的能力。我们对大数据的驾驭能力完全可以变为我们理解世界及其内在一切的能力。采集与分析大数据的进步使我们能够在数分钟内解码DNA,找到癌症疗法,准确预测人类行为,阻止恐怖袭击,精准营销,预防疾病等。
你可能会问,那什么是新的呢?难道这些公司和机构没有花很长的时间采集和分析数据吗?是的,他们也花了相当长的时间来采集和分析数据,但是当前有三点正在不断地变化,这使得“大数据”现象也越来越真实:
* 新数据增长的速度惊人-我将此称之为世界的数据化。
* 更多复杂类型的数据产生。
* 近几年,我们分析数据的能力提高。
世界的完全数据化
我们的世界所产生的数据与日俱增,并且增长速度也越来越快,生活中各个方面的数据都在不停地增长。下面的几个实例阐明了世界的数据化:
* 我们越来越多的将我们的会话以数字文件存储下来:邮件被存储在企业系统中,社交媒体更新被存档,手机通话以数字化存储等。
* 我们越来越多的活动被数字化地记录下来:在这个数字世界里我们所做的大部分事情都留下了数据痕迹。例如,浏览器日志记录了我们上网搜索什么和浏览什么网站等,网站日志记录了我们如何点击,什么时间购了买什么、分享了什么,或喜欢什么等等。当阅读电子书或听电子音乐时,这些设备将收集(和分享)我们读书和听歌的内容及频次等数据。或者当我们使用信用卡支付时我们的交易记录等数据会被存储。
* 许多图片和视频正在被采集和存储起来。试想,每天有数百万小时的监控录像,此外,每分钟有大约100个小时的来自智能手机和数码相机的视频被上传到Youtube,大约200,000张图片上传到Facebook。
* 许多公司和机构正在创建大量的数据存储库,对所发生的一切进行数字记录:财务系统,存货控制系统,订单系统,销售管理系统和HR系统,每天都在产生大量的数据。这些数据存储库每时每刻都在增长。
* 日益增多的智能设备和传感器正在不断地收集数据:智能手机追踪我们的位置信息和移动速度,海洋传感器记录水温和气流,汽车传感器检测驾驶情况,货物包装和托盘的传感器跟踪供应链上运送的货物。智能手表,Google眼镜和电子计步器都可以收集数据。例如,我携带UP手环将会告诉我每天走了多少步,燃烧了多少脂肪以及每晚的睡眠状况等。现在的许多设备是连网的,可以自动收集和分享数据。例如,智能电视和机顶盒能够记录你所观看电视内容,观看时长,甚至看电视的人数。
我相信你已经理解重点了,数据量正以惊人的速度增长。Google的CEO Eric Schmidt曾这样总结,“自人类文明开始至2003年,人类共积累了5艾字节的数据,但现在每两天就可以产生如此多的数据,并且增长速度还在加剧。”
数据不仅更多,而且更复杂
每天所产生的数据量真的难以想象。此外,另一个变化是越来越多新的和更复杂类型的数据的产生,例如,手机通话的数据记录,视频和图片,社交媒体上的会话(#号标签,LOL大声笑缩略语等)。业界将大数据的特点总结为4个“V”:
* 数据体量-每秒产生巨大的数据量
* 数据处理速度-数据增长与传输速度(信用卡欺诈识别是个很好的例子,能够对非正常模式下的数百万条的交易记录的进行实时的核实)
* 数据类型-日益增多的不同类型的数据(从财务数据到社交媒体数据,从图片到感应器数据,从视频采集到音频文件)
* 数据真实性-数据混乱(例如带#号标签,缩略语,错别字和俗语的Twitter短消息)
我们拥有的数据比以往任何时候都多,并且数据格式更复杂,传播速度更快,数据质量更参差不齐——为何这将改变世界?因为我们目前所掌握的技术能够将所有数据放在一起进行分析,而这是我们之前不可能做到的。
现在,我们能够分析和理解“大数据”
过去的传统数据库和分析工具不能对大规模的,凌乱的,非结构化和快速变化的数据进行处理。而现在我们有了新工具,可以将整个分析分拆成不同的部分,通过个人电脑和处理器进行分块处理,从而实现对大数据的分析。处理大型数据集需要同时在多台电脑上运行多个小任务来完成。我接下来的文章将会详细讨论为何"大数据分析"而非“大数据”是真正的主导者。同时,我将介绍一些目前现实生活中关于如何利用大数据的实例:
* 美国联邦调查局整合来自社交媒体,安防监控系统,手机通话和短信的数据来追捕罪犯和预测恐怖袭击。
* Facebook通过面部识别工具比较你和其他人所上传的照片来发现你的潜在朋友(可查看我的文章:Facebook如何通过大数据工具利用你的隐私)。
* 政客们通过社交媒体分析来决定在哪个地方尽最大努力竞选从而赢得下一次的大选。
* 篮球或足球比赛的视频分析和传感器数据正在被利用以提高球员和球队成绩。例如,你可以购买一个含有200多个传感器的篮球,它将对如何改善比赛做出详细的反馈。
* 像Lady Gaga这样的艺术家们正在通过分析我们的收听喜好和收听频次制定出演唱会上最受欢迎的歌曲列表。
* Google的自动驾驶汽车通过分析大规模的来自传感器和摄像头的实时数据,以保证车辆行驶的安全。
* GPS通过对手机定位和手机移动速度的判断可以提供实时路况更新。
* 公司通过对Facebook和Twitter消息进行情感分析来预测产品销量和品牌价值。
* 超市通过整合购物卡与社交媒体信息来发现并利用不断变化的顾客购买模式。例如,零售商基于顾客购买模式的变化可以预测一位女性是否怀孕,并针对孕妇促销婴儿用品。
* 一家专门照顾早产儿和生病婴儿的医院通过记录和分析婴儿心跳变动数据,来识别是否感染疾病,并能在婴儿表现出任何明显症状的24小时之前监测到,从而能够进行早期干预和治疗。
结语
最后,如果不涉及越来越多对个人隐私的担忧,对大数据的讨论是不完善的。许多人对于零售商、信用卡公司、搜索引擎供应商,电子邮件或社交媒体公司如何利用我们的隐私表示担忧。然而,随着爱德华·斯诺登泄密关于美国国家安全局收集和分析几百万美国人的电话记录和社交媒体活动事件的曝光,对于大数据的隐私问题的担忧也开始激增。
Via:http://smartdatacollective.com/bernardmarr/141351/what-really-big-data-and-why-it-will-change-world
|
zan
|