飚哥关于大数据时代中“样本=总体”的看法

[复制链接]

字体大小: 正常放大

wangzheng3056

937 主题	117 听众	3万积分

升级 0%

TA的每日心情

	衰 2020-10-25 11:55

签到天数: 264 天

[LV.8]以坛为家I

自我介绍: 内蒙古大学计算机学院

群组: 2013年数学建模国赛备

电梯直达

1^#

发表于 2014-4-25 15:12 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

样本 = 总体

大数据时代的背景下，数据预处理过程中会颠覆传统统计学的一些经典理论，会提出样本 = 总体，数据预处理后的数据是未降噪的。这是《大数据时代》一书中的观点，很多人会质疑这个观点，总是觉得数据是应该去噪声的。

我是支持书中这个观点的，《大数据时代》一书中还有一个最突出的观点是：“大数据时代，相关关系大于因果关系”。大数据分析关键在于要探索相关关系，但不可否认一点：相关关系是有黑箱性的——即找到相关关系后，我们往往不得不承认这些相关关系是有因果关系的，但我们直接看不到因果关系，但我们可以对因果关系做一个预测。

这里我举一个例子方便更多人理解为什么不去噪声的原因

在我们生活的社会里，话费是不等于花费、化肥、花肥概念的。但如果想往上缴费，我们会理所当然的去百度输入“交话费”，但是阴错阳差，我们键入了“交化肥”。但是百度依然会显示出你想要的结果，如下图所示：

谷歌也会有一样的结果：

我们把时间定位到百度创业第一天，“交化肥”这个词在搜索过程当中属于正常点，但是搜索后的用户大部分人都没有搜索到自己想要的东西，反而去了“交话费”的结果中选取了自己要找的链接，这时搜索引擎把它看做噪声点，如果忽略掉它那势必会给百度或者google造成一笔损失，所以搜索引擎必须将这个噪声点考虑在内。这是一种相关关系的体现，过程中我们也找到了因果。恰好解决了“样本 = 总体”的概念问题。这样也为google减少了一笔损失，因为google的经营模式中，成功通过google搜索结果交一笔花费，google是要吃会扣的。

zan

样本