数据分析的两个原则:KISS和GIGO
热度 2已有 2522 次阅读2011-7-4 17:40
从数据得到信息,进而理解现实,这是数据分析的最终目的。统计学和数据挖掘等学科发展到如今堪称纷繁芜杂,各种方法层出不穷。感到许多人在做统计问题的时候,似乎也有时尚化的趋势,什么流行用什么。看来有时对着数据玩方法也变成了某种乐趣。
但是真想做好数据分析的问题,一定要记得两个重要准则:KISS和GIGO。
KISS是指"Keep It **, Stupid." 这可不是在统计学里的格言,各种工程技术当中更要经常提到。我第一次对这句话留下印象还是在Kelly Johnson的《我怎样设计飞机》里看到的。在实际工作中,复杂往往意味着潜在的危险。复杂的方法,我们不一定能完全掌控。对数据作复杂的处理,也很难保证其结果的性质优良。如果一个方法的基本思路过于复杂,那它往往会导致对数据作出过度处理──数据里含有的信息想要完整而不作畸变地提取出来,是要很精心的。过度处理则往往会加入人为的畸变,反而干扰到应得的结果。看看那些被广泛认可的统计方法,哪个思路不是简洁明了的?
GIGO是指"Garbage In, Garbage Out." 计算机行业也总说这句话。无论是什么算法,提供的结果都是强烈依赖于数据的。算法总不可能给我们提供比原材料更多的信息,只能是把原材料中蕴含的信息更显明地暴露出来罢了。如果原料有问题,譬如不可靠的数据,将严重影响到最终结果的质量。不要指望着高深的方法能弥补数据的先天不足。无论做多少努力,朽木终不可雕。