查看: 2593|回复: 3

读《大数据时代》

字体大小: 正常放大

Jasonkid

3 主题	12 听众	131 积分

升级 15.5%

TA的每日心情

	开心 2016-1-15 14:16

签到天数: 16 天

[LV.4]偶尔看看III

自我介绍: 开朗，喜欢建模

电梯直达

1^#

发表于 2014-5-30 11:08 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

作为一个学计算机出身的理工狗，我抱着强烈的兴趣来看这本书。而大数据的概念已经甚嚣尘上，无人不知了。
　　
　　维克托和肯尼思在这本书中不遗余力的向我们说明了由于技术的进步，传统的统计学抽样方法已经开始显得落伍，而借助于高速发展的数字存储技术与愈发先进的信息整合能力，类似google这样的公司已经有能力挖掘出海量数据中所蕴含的信息。作者在书中提出了两个至关重要的观点：1、我们搜集的数据是如此之多，以至于我们现在拥有的样本就是总体；2、借助于大数据，我们能够轻松的找出数据之间的关联而非因果，换而言之，我们可以轻松的“知其然”，即使我们完全不知其所以然。
　　
　　我不完全清楚两位作者的学术背景，当然，我也不完全清楚两位作者在写书的过程中是否为了让这本书更加通俗易懂而采取了一些微妙的措辞。但是每一个曾经被SVM、LDA、贝叶斯和马尔科夫深深伤害过的人都知道，在大数据的海洋里，我们最大的问题永远都不是如何获取这些数据，而是如何找到这些数据之间的联系。
　　
　　我相信每个学过数据挖掘这门课的人都知道沃尔玛里啤酒和尿布的故事，对，这个故事出现在很多年前，当初同样是为了描述一个令人激动的未来——人类居然可以通过计算机挖掘出那些我们平时根本无法察觉到的、事物之间隐藏的联系。欢欣鼓舞的计算机学家们纷纷将自己的精力投入到这个神奇的领域，但是丝毫没有发现，其实他们只是在重复着所有学者们无数年来在做的事情——寻找这个世界的真实。
　　
　　没错，为了寻找这个世界的真实，哲学家们冥思苦想，物理学家们建造了有毁灭世界之虞的对撞机，化学家们深入原子内部苦苦探究，但谁也没有数学家们走的更远，更接近成功。概率论比所有人都更早一步的找到了数据与数据之间的相关性，于是我们在高中的时候就能够了解线性相关和数据拟合的意义。而随着技术的发展，概率模型下的NLP技术在上个世纪90年代以后全面战胜了规则模型，我们不需要去理解自然语言的语义、语法，让处理器的摩尔法则和指数级叠加的文本互相厮杀，只要有足够数量的样本集——Bingo！一切都搞定了。于是随着Google在各种翻译大赛上的一枝独秀，人们乐观的觉得只要有了足够大的语料库，似乎再也没有什么能够难到他们。于是正向书中所说的那样，人们开始不再关心数据之间的因果联系，不再关心那些细微的错误，而开始疯狂的追求数据的规模。沾沾自喜的人们以为这就是世界的真理，忽视了近十年概率模型应用的规模一再扩大，准确率却停滞不前。即使是文本的二元情感分类如此简单的任务，无监督的学习器也很难拿出一个看得过去的成绩，更不用说机器翻译这样近十年来都没有巨大突破的领域了。就目前人类的技术水平而言，我们很难能够乐观的估计概率模型能够在我们有生之年将机器翻译技术推到“信达雅”的地步，概率模型和大数据的发展过程恰似一个对数函数，经过了最初的高速发展之后就放缓了自己的脚步。
　　
　　所以我是不认可大数据的概念的。数据规模到达一定程度之后，继续扩充的意义已经不大，更遑论所有大数据的应用都极大的依赖于其选取的数学处理模型。而经济发展的不均衡决定了所谓的样本=总体永远不可能出现——全世界有十几亿人还处日生活开销不足2美元的贫困线以下，连登录网络的条件都不具备，我们怎么能够奢望我们收集到的数据就会是总体？而所谓“知其然”可以替代“知其所以然”的概念更像是一个悖论，或许在应用层面上而言，这种说法有其合理之处，但对我们如何更好的了解这个世界的真相，却毫无用处。
　　

zan

沃尔玛, google, 学计算机, 统计学, 维克托