大数据的民主化 大数据本身并不是一个新的概念。特别是仅仅从数据量的角度来看的话,大数据在过去就已经存在了。例如,波音(Boeing)的喷气发动机每30分钟就会产生10TB的运行信息数据,这样计算的话,安装了4台发动机的大型客机,每次飞越大西洋就会产生640TB的数据。世界各地每天有超过2.5万架的飞机在工作,可见其数据量是何等庞大。生物技术领域中的基因组分析,以及以NASA(美国国家航空航天局)为中心的太空开发领域,从很早就开始使用十分昂贵的高端超级计算机来对庞大的数据进行分析和处理了。 现在和过去的区别之一,就是大数据已经不仅产生于特定领域中,而产生于我们每天的日常生活中,Facebook、Twitter等社交媒体上的文本数据是最好的例子。而且,尽管我们无法得到全部数据,但大部分数据可以通过公开的API(应用程序编程接口)相对容易地进行采集。在B2C企业中,使用文本挖掘(text mining)和情感分析等技术,就可以分析消费者对于自家产品的评价。 硬件性价比的提高以及软件技术的进步 另一个原因在于,计算机性价比的提高,磁盘价格的下降,利用通用服务器对大量数据进行高速处理的软件技术“Hadoop”的诞生,以及随着云计算的兴起,甚至已经无需自行搭建这样的大规模环境。上述这些因素,大幅降低了大数据存储和处理的门槛。因此,过去只有像NASA这样的研究机构以及屈指可数的几家特大企业才能做到的对大量数据的深入分析,现在只要极小的成本和时间就可以完成,无论是刚刚创业的企业,还是中小企业或是大企业,任何企业都可以对大数据进行充分的利用。 (1) 计算机性价比的提高
承担数据处理任务的计算机,其处理能力遵循摩尔定律一直在不断进化。所谓摩尔定律,是美国英特尔公司共同创始人之一的高登•摩尔(Gordon Moore,1929~)于1965年提出的一个观点,即“半导体芯片的集成度,大约每18个月会翻一番”。从家电卖场中所陈列的电脑规格指标就可以一目了然地看出,和过去相比,现在以同样的价格能够买到的计算机,其处理能力已经和过去不可同日而语了。 (2) 磁盘价格的下降
除了CPU性能的提高,硬盘等存储器(数据的存储装置)的价格也明显下降。2000年的硬盘驱动器平均每GB容量的单价约为16美元到19美元,而现在却只有7美分,相当于下降到了10年前的230~270分之一(图表1-4)。换算成人民币的话,就相当于4~5毛钱的样子。
(3) 大规模数据分布式处理技术“Hadoop”的诞生
“Hadoop”是一种可以在通用服务器上运行的开源分布式处理技术(详细说明见第2章),它的诞生成为了目前大数据浪潮的第一推动力。如果只是结构化数据不断增长,用传统的关系型数据库和数据仓库,或者是其衍生技术,就可以进行存储和处理了,但这样的技术无法对非结构化数据进行处理。Hadoop的最大特征,就是能够对大量非结构化数据进行高速的处理。
云计算的普及 上述①~③所提到的这种大数据的处理环境,现在在很多情况下也并不一定要自行搭建了。例如,使用Amazon的云计算服务EC2(Elastic Compute Cloud)和S3(Simple Storage Service),就可以在无需自行搭建大规模数据处理环境的前提下,以按用量付费的方式,来使用由计算机集群组成的计算处理环境和大规模数据存储环境了。此外,在EC2和S3上还利用预先配置的Hadoop工作环境提供了“EMR”(Elastic MapReduce)服务。利用这样的云计算环境,即使是资金不太充裕的创业型公司,也可以进行大数据的分析了。 实际上,在美国,新的IT创业公司如雨后春笋般不断出现,它们通过利用Amazon的云计算环境,对大数据进行处理,从而催生出新型的服务。这些公司包括网络广告公司Razorfish、提供预测航班起飞晚点等“航班预报”服务的FlightCaster、对消费电子产品价格走势进行预测的Decide.com等。
本文由出版圈郭志敏授权(果壳网)发表,文章著作权为原作者所有。
|