样本 = 总体 大数据时代的背景下,数据预处理过程中会颠覆传统统计学的一些经典理论,会提出样本 = 总体,数据预处理后的数据是未降噪的。这是《大数据时代》一书中的观点,很多人会质疑这个观点,总是觉得数据是应该去噪声的。 我是支持书中这个观点的,《大数据时代》一书中还有一个最突出的观点是:“大数据时代,相关关系大于因果关系”。大数据分析关键在于要探索相关关系,但不可否认一点:相关关系是有黑箱性的——即找到相关关系后,我们往往不得不承认这些相关关系是有因果关系的,但我们直接看不到因果关系,但我们可以对因果关系做一个预测。 这里我举一个例子方便更多人理解为什么不去噪声的原因 在我们生活的社会里,话费是不等于花费、化肥、花肥概念的。但如果想往上缴费, 我们会理所当然的去百度输入“交话费”,但是阴错阳差,我们键入了“交化肥”。但是百度依然会显示出你想要的结果,如下图所示:
谷歌也会有一样的结果:
我们把时间定位到百度创业第一天,“交化肥”这个词在搜索过程当中属于正常点,但是搜索后的用户大部分人都没有搜索到自己想要的东西,反而去了“交话费”的结果中选取了自己要找的链接,这时搜索引擎把它看做噪声点,如果忽略掉它那势必会给百度或者google造成一笔损失,所以搜索引擎必须将这个噪声点考虑在内。这是一种相关关系的体现,过程中我们也找到了因果。恰好解决了“样本 = 总体”的概念问题。这样也为google减少了一笔损失,因为google的经营模式中,成功通过google搜索结果交一笔花费,google是要吃会扣的。
|