QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1012|回复: 0
打印 上一主题 下一主题

大数据到底是什么?

[复制链接]
字体大小: 正常 放大

937

主题

117

听众

3万

积分

升级  0%

  • TA的每日心情

    2020-10-25 11:55
  • 签到天数: 264 天

    [LV.8]以坛为家I

    自我介绍
    内蒙古大学计算机学院

    社区QQ达人 金点子奖 助人为乐奖 风雨历程奖

    群组2013年数学建模国赛备

    跳转到指定楼层
    1#
    发表于 2014-4-23 14:44 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    如果用非IT类媒体的报道次数或关注度,来去衡量一个IT词汇的热度,我相信“大数据”绝对可以算得上是当前最热的IT词汇,云计算肯定不是它的对手。大数据之所以这么火热,是因为它与普通大众的生活之间,相较其他IT术语似乎有着更为重大,或者说更具传奇色彩更为深厚的关系。从定向营销,到助力美国总统大选,大数据迅速披上了神奇的外衣。而也正是因为它对于人类生活的这种显性的影响力,让它成为了每个生活于信息世界中的人,或多或少都要关注的方向。
    仅以企业与客户者之间的关系而言,企业主希望借助大数据来分析客户行为规律、兴趣爱好、找到目标的客户,向潜在的客户推送他们可能想要的信息,但另一方面消费者也会因为一些不靠谱的信息推送,来揣测相关企业的大数据的水平。除此之外,通过大数据来改变自身运营效率的企业案例,似乎也正在飞速增加着……因此,从哪个方面看,大数据也越来越有成为公从谈资的资本。然而,大数据到底是什么,可能这些参与其中的人又会给出不同的说法,有技术层面上的解读,有理念层面上的解读,有从使用效果上的事后总结……但实话实说,与其他IT术语相比,大数据在解释上更具多样性与不确定性色彩。
    大数据是噱头吗?
    今天我们来谈“大数据到底是什么”,并不想从技术或理念上深究,而希望能一种浅显的描述,来最大限度的达成一种对大数据的共识。其实,大数据这一概念最早成型于IDC与EMC合作的调研报告中,可是那个调研报告的侧重点还在于对互联网、物联网、云计算等大趋势下的数据积累、保存与管理的警示,随后不同的厂商在这一基础上不断扩展、丰富并最终延伸出一个业界公认的4V属性理论(体量Volume、种类Variety、速度Velocity、价值Value,IBM的4V理念将最后一个V定义为真实Veracity),从而形成了一个闭合的大数据体系,从纵向上又总结出从硬件基础设施到数据管理,再到数据分析,最后是数据呈现等4层架构。归根结底,大家最后的共识都认为大数据最终要用服务于社会的,这是它的终极用途,之前所说的积累、保存、管理、分析都是为这一目的服务的。
    这么说来,对大数据的认识似乎又统一了,但也因此也使很多人对大数据概念嗤之以鼻。如果仅就大数据最终要体现出应用的价值为社会服务的话,与以前的数据挖掘、商业智能理念又有怎样的区别呢?大数据中的体量,可能在很多场合也并不能体现出来,可能就是几TB的数据也能把人搞得焦头烂额,无非就是数据类型扩展而已。所以,说“大数据只是一个噱头”并无道理。
    但是,当前的一些大数据的应用案例,也的确与以往的数据仓库应用不同,这其中可能有非结构化与结构化数据的原因,但也有一新的理念、处理模型与手段的变化。至于哪些新东西是因大数据引发的,我们在此也没必要去纠缠,只需要解答一个核心的问题即可:数据到底是什么?
    数据能源?
    如果说很多人追捧大数据的神奇在于,它可以将原本不起眼的历史数据化腐朽为神奇,那么我们是不是可以将大数据比作一种通过加工而来的一种能源?如果可以,我们放眼地球上的能源,就会发现其与大数据有着太多相似之处。
    地球上的能源有很多种,但是它们之所以是能源的前提在于人类对它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源,前者可用来取暖、驱兽、加工食品,后者可用来生火。在此之后,随着人类文明的进步,科技的发达,逐渐发现了越来越多的能源,比如煤、天然气、石油、太阳能等等,但是在人类还不能认知它们时,它们就不存在了吗?显然不是,在没有人类的时候,它们就已经在地球上静静的等候了成万上亿年,只是人类掌握了相应的科技与工具之后,它们才得以登堂入室。
    数据也是一样,如果数据有着一个生成/采集——应用/加工——保存/管理——分析/挖掘——再保存或删除这样的一个周期的话,那么在其生成的那一刻起,它就存在着应有的价值,只是在于你是否有能力去发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下几十公里有石油,他们也无法开采,所谓的数据分析,道理也是一样的。
    从人类发展的历史来看,不断发现新的能源,是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的能源。从这个角度讲,当前的大数据所带来的种种神奇,只是人类在数据收集、管理、分析等领域的一次进步而已,它有出现的必然,而非人类的一种“顿悟”。
    我们再来看看地球能源的4V属性:
    图注:大数据的4V属性:Volume、Variety 、Velocity和Value。
    1、Volume——储量:现在已经探明的,或新探明的煤、天然气、石油、风、太阳能等能源的储量是相当惊人的,但遍布于多种地形、地貌中,就看人类有没有本事都能获取到了。
    2、Variety——类别:随着人类技术水平的进步,所获得的能源种类也就越来越多,并且越来越多以前认为不行的资源,后来也慢慢成为了能源,放射性元素就是典型的例子,而若技术成熟,海水将成为人类用之不竭的新能源。曾经有一篇科幻论文说得好“也许未来只需要一把泥土,就能把火箭送上月球”。另一方面,不同能源所需要的开采技术与工具也各不相同,这就好比结构化数据与非结构化数据的处理手段的差别。因此,人类面对的能源类别越来越多,它也需要人类具备越来越多种类的能源开采能力。
    3、Velocity——开采/转换效率:很难想像一口一天只产一加仑的油井有什么价值,如果一个太阳能的光电转换效率不到1%,还有使用它的必要吗?因此,人类在能源上的开采/转换的效率将决定这种能源的可利用性,就如果做数据分析,今天的销售数据分析,一个月后才能出来,那不分析也罢了。
    4、Value——价值:能源的价值取决于它所能提供的能量与贡献,谁都知道95号汽油比92号汽油好,但也更贵;煤很便宜,但能提供的能量也相对较低;电能,在目前仍要通过其他能源转换得来,这都是价值之所在。它决定于自身的属性,与相应的数据挖掘与提炼的能力,前者相当于汽油与煤的不同,后者相当于炼油厂在95与92号之间的提炼工艺不同。它们都最终决定了数据的价值——并且像某些大数据宣传中所鼓吹的那样,好像任何数据用大数据分析后,就能黄土变黄金一样,这是不可能的,除非你自己对某类数据的认知就有偏差(原本就是土,和原本就是金子,有着本质不同)
    IBM所提倡的Veracity,我认为可以理解为能源的提炼水平,就算是95号汽油,中国产的能和欧美产的相提并论吗?这就是所谓的真95与假95号的区别。另一个典型的例子就是浓缩铀,丰度为3%的铀235的低浓缩铀可用于核发电,而丰度高于90%的铀235则可以用来制造核武器,两者的价值肯定不一样?所以,这种提炼质量与能力上的区别也最终会体现在能源的价值上。因此,IBM强调数据分析的准确与真实,可以与能源提炼过程中的纯度相对应,体现了对数据分析的一种质的要求。
    图注:IBM把大数据第4个V定义为Veracity。
    说完理念的对比,再看纵向技术架构上的相似之处,大家可以想想大数据中所谈到的数据采集、汇总、保存、管理、分析、呈现是不是与能源的勘探、开采、汇聚、保管、提炼、使用有着一一对应的关系呢?
    特别需要指出的是,现在物联网的一大分支——工业互联网越来越热,而大数据就是其最后的重要支撑(前不久通用电气还专门为此投资了Pivotal),其理念在于将各种传感器、致动器也纳入整体的信息采集体系,借助工业设备管控平台,分析出存在于工业设备内有价值的信息,以便于管理、精度调校以及健康预警。想想看,这是不是像地质勘探中,将不同炸点的传感信息汇总起来,再通过震荡波分析软件,来呈现出地下的矿产分布与结构视图?
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-29 20:39 , Processed in 0.378412 second(s), 55 queries .

    回顶部