数学建模社区-数学中国

标题: 说的简单，大数据真的那么容易落地吗？ [打印本页]

作者: math3056 时间: 2014-4-16 15:24
标题: 说的简单，大数据真的那么容易落地吗？
有很多网友吐糟，大数据、云计算这些词汇近几年已经用滥了！但是我们静下心来仔细想想，当数据量激增以及云计算市场需求的不断变换，对于大量数据处理的要求也提升了不少，软硬件系统和设备的高难度兼容措施，以及数据可视化困难等等一系列问题依旧困扰着很多用户，我们磨破嘴皮所说的大数据技术真正“落地”了吗？

大数据已经说滥了?数据落地哪儿那么容易

曾经有一位业内知名厂商的研发专家表示，对于数据更快的处理和拥有更可靠的数据质量，以及给应用市场进行更加精细的花费，这些都是未来大数据时代我们首当其中要做的。

让数据分析处理速度更快

我们现在每天一觉醒来，全球所产生的数据量是很庞大的，并且这些数据在每小时、甚至每分钟当中都是以成指数倍增长的，正因为大量数据成这种增长趋势，使得我么在数据的快速分析技术方面变得比以前更加紧迫，数据不等人！

现在IT业界凡是在做大数据的企业都在自己产品对于数据的处理速度上加大研发力度和投入，从而大做文章，比如像Hadoop发布的新品Hadoop 2.0 / YARN，几乎能实时分析数据。而下一代大数据的计算牵引框架Apache Spark，它的速度比Hadoop快100倍。

据行业内部了解，硅谷风险投资机构Andreessen Horowitz，已经以1400万美元的价格领投了一家以Apache Spark为业务核心的初创企业Databricks。不久前，亚马逊也上线了实时流数据服务Kinesis ，来帮助没有数据处理能力的公司解决这一问题。

现在越来越多的厂商开始认识到数据处理速度对于大数据这个战场上的重要性了，每秒处理近TB大小的数据量已经不足为奇，传感器数据分析、物联网在工业和消费级市场快速发展的势头也共同推动了大数据的前进，特别是当实时处理的传感器数据，激增到一天几TB的时候。速度！就成了尤为关键的指标。

垃圾数据？必须清洗掉！

前面我们说了每天大数据数量成指数倍的激增趋势，那么对于数据质量的强化和过滤分析也就让很多厂商头疼了，在这一堆庞大的数据面前，垃圾数据以及很多无用的数据不可避免，然而它们也会给我们的机房乃至数据中心带来数据处理上的压力和负担。

垃圾数据一旦产生，就需要我们在数据处理的过程当中，对垃圾数据进行过滤和清洗，并且自动决策这些数据的去留，这样的环境下，如果选择了一个坏的数据，就会像病毒一样，可能引发连续的错误决策，甚至让企业蒙受经济损失。试想一下，利用不同算法在股市进行交易，每天以毫秒计时的股市，一旦出现任何数据分析或者垃圾数据的事故，这个经济损失是不可估量的。

现在，随着大数据的飞速发展，数据质量已经形成了服务级别协议的重要参数，那些无法被屏蔽掉的劣质数据提供商将会被自动列入黑名单，并且还会面临很严重的经济处罚，B2B行业为早期数据质量的入局者，他们非常重视数据的质量，来保持商业运作时的稳定性。甚至，许多企业计划为数据质量部署实时的警告系统，这些警告会被发送于负责相应问题的专员，由他们提供问题的解决方案。

机器学习系统部署在一个闭环的生态中，通过模式分析与其他的数据分析技术，细化原来的数据质量规则。而高质量的数据，能够保证机器进行正确的行为模式分析。
数据基础应用日趋丰富

现在我们正处在大数据时代，我们的工作、生活、学习都无时无刻不在感受大数据，的确，我们融入其中。那么我们每一个人也就都想利用大数据给我们带来各种便利，从而让大数据能帮我们解决困难，消灭问题，有业内专家曾经预测，在未来，将会有成千上万的解决某一垂直领域的专业应用，以应对来自各行各业的大数据挑战。

现在我们可以看到，已经有一些数据分析公司，像eHarmony、 Roambi、 Climate Corporation等，它们已经在大数据领域小有成就，我们也慢慢发觉越来越多的应用已经从不同的渠道慢慢渗透出来，它们不依赖特定的基础设备，也不需要雇佣专业的数据科学家，因为上面提到的那些数据公司足矣完成这些内容。

现在的数据公司数据企业已经可以为用户提供用户所需要的各种应用以及用户需要的不同类型产品，企业赚钱也变得更有针对性，吃喝玩乐，衣食住行都在这个数据时代得到保证和提高，未来的数据生活和数据应用也会变得越来越丰富。

欢迎光临数学建模社区-数学中国 (http://www.madio.net/)